This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

深度图误差整理 1. MAE (Mean Absolute Error) MAE=1N∑i∣dipred−digt∣\text{MAE} = \frac{1}{N}\sum_i |d_i^{pred} - d_i^{gt}| 表示预测深度和真实深度的平均绝对误差。数值越小越好。单位和深度本身一致（比如米）。 2. RMSE (Root Mean Square Error) RMSE=1N∑i(dipred−digt)2\text{RMSE} = \sqrt{\frac{1}{N}\sum_i (d_i^{pred} - d_i^{gt})^2} 衡量误差的均方根，更关注大误差。和 MAE 类似，但对大偏差更敏感。 3. AbsRel (Absolute Relative Error) AbsRel=1N∑i∣dipred−digt∣digt\text{AbsRel} = \frac{1}{N}\sum_i \frac{|d_i^{pred} -...

论文阅读_3D-C2FT

发表于2025-12-03|论文阅读

3D-C2FT 基本信息项目内容论文标题 Hunyuan3D 作者 Hunyuan3D Team (腾讯团队) 作者单位腾讯 (Tencent) 时间 2025 发表会议/期刊方法概览特点文章性质输入标定之后的多视角图像输出 Mesh 所属领域 MeshMVS 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction 论文总结方法名称：3D-C2FT (3D Coarse-to-fine Transformer) 作者：Leslie Ching Ow Tiong, Dick Sigmund, Andrew Beng Jin Teoh 第一单位：韩国科学技术研究院 (Korea Institute of Science and Technology) 发表年份与会议/期刊：2022年，发表于国际计算机视觉会议 (ICCV) 或其他计算机视觉顶会...

论文阅读_3D-R2N2

发表于2025-12-03|论文阅读

3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction 基本信息项目内容论文标题 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction 作者 Christopher B. Choy, Danfei Xu, JunYoung Gwak, Kevin Chen, Silvio Savarese 作者单位 Stanford University 时间 2016 发表会议/期刊 ECCV (European Conference on Computer Vision) 方法概览特点文章性质输入单张或多张任意视角的RGB图像（无需校准）输出三维占据网格 (3D occupancy grid, 如 32imes32imes3232 imes 32 imes...

论文阅读_AA-MVSNet

发表于2025-12-03|论文阅读

AA-RMVSNet (Adaptive Aggregation Recurrent Multi-view Stereo Network) 基本信息项目内容论文标题 Adaptive Aggregation Recurrent Multi-view Stereo Network 作者 Zizhuang Wei, Qingtian Zhu, Chen Min, Yisong Chen, Guoping Wang* 作者单位 Peking University（北京大学）时间 2021 发表会议/期刊方法概览特点文章性质输入标定之后的多视角图像输出场景的点云图，每个视角的法线和深度图所属领域 MVS 摘要精简本文提出一种基于长短期记忆（LSTM）的递归多视图立体网络 ...

论文阅读_CDS-MVSNet

发表于2025-12-03|论文阅读

CDS-MVSNet（Curvature-Guided Dynamic Scale Networks for Multi-view Stereo）基本信息项目内容论文标题 CDS-MVSNet（Curvature-Guided Dynamic Scale Networks for Multi-view Stereo）作者 Khang Truong Giang, Soohwan Song, Sungho Jo 作者单位韩国科学技术院（KAIST）时间 2022 发表会议/期刊 ICLR 方法概览特点文章性质输入标定之后的多视角图像输出场景的点云图，每个视角的法线和深度图所属领域 MVS 摘要精简本文提出一种基于曲率引导动态尺度特征提取的多视图立体网络 CDS-MVSNet，核心是曲率引导动态尺度特征网络（CDSFNet）。**CDSFNet ...

论文阅读_CIDER

发表于2025-12-03|论文阅读

CIDER（Correlation cost volume and Inverse DEpth Regression）其实是抄CwcNet这个stereo网络基本信息项目内容论文标题 CIDER（Correlation cost volume and Inverse DEpth Regression）作者 Qingshan Xu、Wenbing Tao 作者单位 Huazhong University of Science and Technology（华中科技大学）时间 2019 发表会议/期刊方法概览特点文章性质输入多视角输出参考视角深度图所属领域 MVS 1. 摘要精简提出一种基于相关代价体和逆深度回归的多视图立体匹配（MVS）方法 CIDER，解决现有方法的可扩展性和精度瓶颈。该方法通过平均分组相关相似度度量构建轻量级代价体，大幅降低内存消耗和计算负担；采用级联 3D U-Net 对代价体进行正则化，聚合更多上下文信息；将 MVS...

论文阅读_CLAY和Hunyuan3D2.0串讲

发表于2025-12-03|论文阅读

论文阅读_CLAY和Hunyuan3D2.0串讲论文：Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation 论文：CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets 两个的思路基本一致，现在只通过hunyuan3D 2.0进行讲解 Hunyuan3D 2.0 系统包含两个基础模型，原因geometry 和 appearance 解耦更稳定。： 1️⃣ Hunyuan3D-DiT生成几何形状（mesh） 2️⃣ Hunyuan3D-Paint生成 texture map Shape生成模块Hunyuan3D-DiT Shape生成包含两个部分： 1ShapeVAE + Diffusion Transformer ShapeVAE（核心） ShapeVAE作用： 12mesh → latent tokenslatent tokens...

论文阅读_CVP-MVSNet

发表于2025-12-03|论文阅读

CVP-MVSNet（与CasMVSNet无区别）基本信息项目内容论文标题 Cost Volume Pyramid Based Depth Inference for Multi-View Stereo 作者 Jiayu Yang、Wei Mao、Jose M. Alvarez、Miaomiao Liu 作者单位 Australian National University（澳大利亚国立大学）时间 2020 发表会议/期刊 CVPR 方法概览特点文章性质输入多视角输出参考视角深度图所属领域 MVS 1. 摘要精简提出一种基于成本体积金字塔（Cost Volume Pyramid）的多视图立体匹配（MVS）深度推断网络 CVP-MVSNet，以粗到精的方式构建成本体积，替代固定分辨率的单一成本体积。该方法先在图像金字塔的最粗分辨率层构建全深度范围的成本体积，再基于前一阶段的深度估计，迭代构建像素级深度残差的部分成本体积，实现深度图逐步细化。网络结构紧凑轻量化，在保证重建精度的同时，比...

论文阅读_Cas-MVSNet

发表于2025-12-03|论文阅读

Recurrent MVSNet（R-MVSNet）基本信息项目内容论文标题 Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching 作者 Xiaodong Gu, Zhiwen Fan, Zuozhuo Dai, Siyu Zhu, Feitong Tan, Ping Tan 作者单位阿里巴巴人工智能实验室时间 2020 发表会议/期刊 CVPR 方法概览这篇论文包含了Stereo部分和MVS部分，是结合起来的特点文章性质输入多视角输出参考视角深度图所属领域 MVS 1. 摘要精简提出一种内存和时间高效的级联代价体（Cascade Cost Volume）框架，用于高分辨率多视图立体匹配（MVS）和立体匹配任务。该框架将传统单一 3D 代价体分解为多阶段级联结构，基于特征金字塔以 “粗到精” 方式重建：前一阶段预测结果指导后一阶段缩小深度 / ...

论文阅读_CLAY

发表于2025-12-03|论文阅读

CLAY 基本信息项目内容论文标题 CLAY（Controllable Large-scale Generative Model for Creating High-quality 3D Assets）作者 LONGWEN ZHANG, ZIYU WANG, QIXUAN ZHANG 等作者单位上海科技大学 (ShanghaiTech University)、Deemos Technology Co., Ltd. 时间 2024 发表会议/期刊方法概览特点文章性质输入支持多模态输入，包括文本、单张图像、草图、多视角图像、体素、点云、边界框等。输出是带有高保真PBR材质贴图的Mesh模型。其内部几何表示使用occupancy field，最终通过Marching Cubes算法提取为Mesh。所属领域三维生成 (3D Generation) DiT:Diffuison...