avatar
文章
205
标签
71
分类
15
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

论文阅读_DROID-SLAM
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras 作者 Zachary Teed ,Jia Deng 通讯是ImageNet的一作。 作者单位 Princeton University 时间 发表会议/期刊 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 创新点 把Visual-SLAM问题使用深度神经网络直接端到端的实现了,并且取得了比以往传统SLAM方案更高的精度和鲁棒性。
论文阅读_DreamBooth
发表于2025-12-03|论文阅读
DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 微调文生图扩散模型的方法,最大的特点是Subject-Driven,针对某一个特定的主体,生成这个主体可以是一个动物或者某个物体,包括人都是可以的。有特定小狗的一些照片,一般 3-5 张就能生成模型没有见过它做的事情的图片,比如说去到了这个希腊,去游泳,这都是模型没有见到过的照片,但是模型却能生成出来。并且这些生成的图片都有很高的保真度,能够保持这个物体的主要特征。 Probdef 输入:提示词和一个给定的很小量的 reference set,比如一个狗的三张图 输出:模仿生成该 set 中所指定提示词的图片,比如狗在南极的图 背景: diffusion models这些模型实现了从给定文本提示中高质量和多样化的图像合成。但是缺少能够通过一个给定的很小量的 reference set ,去模仿生成该 set 中所指定 subject...
DriveMVS
发表于2025-12-03|论文阅读
DriveMVS 基本信息 项目 内容 论文标题 LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving 作者 杨胜 (Sheng Yang)¹, 张涛 (Tao Zhang)² 作者单位 ¹菜鸟网络, 阿里巴巴集团; ²哈尔滨工业大学 时间 2025 发表会议/期刊 arXiv预印本 (根据文内参考文献推测为CVPR/ICCV级别工作,但本文为arXiv:2509.13414) 特点 文章性质 输入 时序长度为 T 的序列数据,单步输入包含参考图像、N 张源图像、所有视角的相机内参 + 外参(位姿)、所有视角的稀疏 LiDAR 度量提示;支持单帧 / 时序输入,非强制时序但时序输入可实现时间一致性 输出 逐像素的绝对度量深度图D^(t)∈RH×W,时序输出可保证帧间深度的时间一致性 所属领域 自动驾驶场景下的时空多视图立体匹配深度估计 1....
论文阅读_EffiMVSNet
发表于2025-12-03|论文阅读
Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 基本信息 项目 内容 论文标题 Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 作者 Shaoqian Wang, Bo Li, Jian Yang, Yuchao Dai 作者单位 西北工业大学 (School of Electronics and Information, Northwestern Polytechnical University) 时间 2024 发表会议/期刊 IEEE Robotics and Automation Letters (LRA), Vol. 9, No. 11, November...
论文阅读_GGEV
发表于2025-12-03|论文阅读
GGEV Generalized Geometry Encoding Volume for Real-time Stereo Matching 基本信息 项目 内容 论文标题 Generalized Geometry Encoding Volume for Real-time Stereo Matching 作者 Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang 作者单位 华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) 方法概览 特点 文章性质 输入 一对校正后的立体图像(左右视图) 输出 稠密视差图 所属领域 计算机视觉,立体匹配,实时深度估计 1....
论文阅读_GPT
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Improving Language Understanding by Generative Pre-training(GPT-1 作者 作者单位 OpenAI 时间 2018 发表会议/期刊 论文别名 Generative Pre-trained Transformer 模型 年份 论文标题 参数量 训练数据 核心贡献 GPT-1 2018 Improving Language Understanding by Generative Pre-Training ~1.17 亿 BookCorpus 提出 预训练 + 微调 范式 GPT-2 2019 Language Models are Unsupervised Multitask Learners 1.5 亿 → 15 亿 WebText 提出 零样本迁移(Zero-shot Transfer) GPT-3 2020 Language Models are Few-Shot Learners 1.75 亿 → 1750...
论文阅读_GoogleNet
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Going Deeper with Convolutions 作者 Szegedy et al. 作者单位 Google 团队 时间 2014 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 创新点 提出 Inception 模块,在不显著增加参数的情况下大幅增加网络宽度和深度。22 层(按卷积/池化算),但参数仅 500 万(5M) 无全连接层:使用 Global Average Pooling(GAP) 替代 FC 层,支持任意输入尺寸,大幅减少参数。
论文阅读_High-Resolution Image Synthesis with Latent Diffusion Models
发表于2025-12-03|论文阅读
基于潜在扩散模型的高分辨率图像合成,Stable Diffusion的基础论文 前置知识: Diffusion Models(DDPM):扩散模型包括两个过程:前向过程(forward process)和反向过程(reverse process) 其中前向过程又称为扩散过程(diffusion process):对数据逐渐增加高斯噪音,直至数据变成随机噪音。 Diffusion Model(DDPM)训练过程就是训练UNet预测每一步的noise,从而逐步还原原始图像。原始图像空间的Diffusion Latent Diffusion Models(LDMs):diffusion直接在原图进行图片的去噪处理,而 latend diffusion 是图像经过VAE编码器压缩的图像,进行diffusion处理,然后再通过解码器,对压缩后的latent 编码还原为图像。 Stable diffusion:一个基于Latent Diffusion Models(LDMs)的text2image模型的实现。 latent...
论文阅读_I3D
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Quo Vadis, action recognition? A new model and the kinetics dataset(Quo Vadis是一个老电影,”你要去哪?“) 作者 Joao Carreira,Andrew Zisserman 作者单位 Google Research 时间 2017 发表会议/期刊 全称 Inflation3D 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视频分类,视频理解,视频动作识别 在 I3D 之前,视频动作识别主要有前三种方式: 方法 问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征,RNN 建模时序,但时空分离,难以捕捉时空联合特征。 纯 3D CNN(如...
论文阅读_IGEV
发表于2025-12-03|论文阅读
IGEV Iterative Geometry Encoding Volume for Stereo Matching 基本信息 项目 内容 论文标题 Iterative Geometry Encoding Volume for Stereo Matching 作者 Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang 作者单位 华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) 方法概览 特点 文章性质 输入 一对校正后的立体图像(左右视图) 输出 稠密视差图 所属领域 计算机视觉,立体匹配 1. 摘要精简 本文提出了 迭代几何编码体积 (IGEV-Stereo),一种用于立体匹配的新型深度网络架构。针对RAFT-Stereo中全对相关性 (APC)...
1…789…21
avatar
outbreak_sen
an interesting man
文章
205
标签
71
分类
15
Follow Me
公告
This is my Blog
最新文章
Hydra 与 OmegaConf 入门教程2026-03-23
SSH密钥认证2026-03-23
论文阅读_Concerto2026-03-23
论文阅读_FUSER2026-03-23
论文阅读_MC-MVSNe2026-03-23
分类
  • swift2
  • 传统图形学1
  • 学习笔记1
  • 实践笔记2
  • 嵌入式1
  • 工具笔记10
  • 深度学习11
  • 点云配准6
标签
单目深度 深度相机 VAE Mesh GAN生成对抗模型 openclaw huggingface 李沐 Debug 生成 Muilt View Stereo ResNet Qt 前馈基础模型 匹配 BFS transformer 论文整理 DFS SFM CUDA Blender sdf Mindspore 相机驱动 LLVM easymocap nodejs Mesh重建 Diffusion SDF 检测 Stereo 三维重建 Mesh生成 python mindNLP shell Muilt view stereo mesh
归档
  • 三月 2026 13
  • 一月 2026 1
  • 十二月 2025 159
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 3
  • 二月 2025 16
网站信息
文章数目 :
205
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2026 By outbreak_sen
框架 Hexo|主题 Butterfly