This is a 部落格 of outbreak_sen

发表于2025-07-01|论文阅读

SMPL 基础知识顶点（vertex）：动画模型可以看成多个小三角形组成，每三个顶点组成一个三角形，每个小三角形就可以看成一个顶点。骨骼点：骨架关节，比如膝盖骨骼蒙皮（Rig）：建立骨骼点和顶点的关联关系。每个骨骼点会关联许多顶点，并且每一个顶点权重不一样。通过这种关联关系，就可以通过控制骨骼点的旋转向量来控制整个人运动。顶点权重(vertex weights)：用于变形网格mesh，通过骨骼计算当前顶点 BlendShape：控制动画角色运动有两种，一种是上面说的利用Rig，还有一种是利用BlendShape。比如：生成一种笑脸和正常脸，那么通过BlendShape就可以自动生成二者过渡的动画。这种方式相比于利用Rig，可以不定义骨骼点，比较方便。蒙皮函数（SF，Skinning Function）：是计算机图形学中用于将骨骼动画（Skeletal...

SMPLify-从二维坐标到人体SMPL和三维坐标

发表于2025-07-01|论文阅读

...

MonSter

发表于2025-06-20|论文阅读

MonSter 华中科技大学2025 上台之后首先讲清楚自己为什么要做单目深度估计+立体匹配的方式做立体匹配立体匹配是什么? 立体匹配从校正的立体图像中估计视差图，随后可以将其转换为公制深度。是从相似性匹配中得出差异的，假设两张图像中都有可见的对应关系。方法大致可分为基于成本筛选的方法和基于迭代优化（局部成本）的方法。立体匹配效果差在哪? 立体匹配从图像对应中恢复深度。现有方法难以处理匹配线索有限的病态区域，例如遮挡、无纹理区域、重复/薄结构以及像素表示较低的远处对象。单目深度估计是什么? 与立体匹配不同，单目深度估计直接从单个图像中恢复 3D，不会遇到不匹配的挑战。单目深度估计的效果差在哪？虽然单眼深度为立体结构提供了互补的结构信息，但预训练模型通常会产生具有比例和偏移模糊性的相对深度。即使在全局缩放和移位对齐之后，大量错误仍然存在红线表示的是理想情况下的视差匹配。蓝色点表示的是实际从单目深度估计得到的视差值。离红线越近的蓝色点，表示该位置的视差估计越准确；而离红线越远的蓝色点，则表示视差估计的误差越大。 (a) No...

FoundationStereo

发表于2025-06-20|论文阅读

FoundationStereo NVIDIA 2025 摘要（有本事别微调刷榜，我就是要做zero-shot）通过每个域的微调，深度立体匹配在基准数据集上取得了巨大进步。然而，实现强大的零镜头泛化（其他计算机视觉任务中基础模型的标志）对于立体匹配来说仍然具有挑战性。为此，我们首先构建了一个大规模（1M 立体对）合成训练数据集，具有较大的多样性和高照片级真实感，然后是一个自动自我管理管道来去除模棱两可的样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它适应了视觉基础模型中丰富的单目先验，以减轻 sim-to-real 的差距，以及用于有效成本量过滤的远程上下文推理。引言近半个世纪前第一个立体匹配算法出现，我们已经走过了漫长的道路。，最近的立体算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得竞争结果的首选方法。鉴于通过scaling...

MobileNet

发表于2025-06-02|论文阅读

MobileNet MobileNets: V1:《MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 》2017 MobileNet V2:《MobileNetV2:Inverted Residuals and Linear Bottlenecks》 MobileNet V3:《searching For MobileNet V3》 MobileNet V3 2016年6月，谷歌提出了MobileNetV1，由于各种原因当时没有挂上arxiv，一直到2017年4月才提交。好巧不巧，谷歌的另一团队，同时提出了Xception。所有才有了两个结构都是基于深度可分离卷积的相似争论谷歌在2019年5月份推出了最新的MobileNetV3 https://zhuanlan.zhihu.com/p/70703846 摘要有更小的体积，更少的计算量，更高的精度。在轻量级神经网络中拥有极大的优势。创新点 MobileNet...

SuffleNet

发表于2025-06-02|论文阅读

SuffleNet ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices 旷视科技摘要 MobileNet和SqueezeNet等一样主要是想应用在移动端创新点 ResNeXt 在非常小的网络中效率会降低，因为密集的 1×1卷积代价很高，基于此作者提出了 pointwise group convolution 以减少 1×1卷积的计算复杂度；为克制 pointwise group convolution 带来的副作用，提出了 channel shuffle 的操作，用于实现信息在特征通道之间流动 . ShuffleNet与MobileNet的对比，ShuffleNet不仅计算复杂度更低，而且精度更好。创新点讲解 DeepwiseConvolution（是一种GroupConvolution）（特征图数就是通道数）分组卷积(Group Convolution) 的概念首先是在 AlexNet 中引入，用于将模型分布到两块 GPU...

李沐-ResNet

发表于2025-06-02|论文阅读

ResNet Deep Residual Learning for Image Recognition 微软研究院的Kaiming...

李沐-TransFormer基础

发表于2025-06-01|论文阅读

李沐-TransFormer基础 Attention Is All You Need 谷歌在2017年的论文同等贡献很多代码在tensor2tensor 摘要序列转换模型都是基于复杂的循环神经网络或卷积神经网络，且都包含一个encoder和一个decoder。表现最好的模型还通过attention机制把encoder和decoder联接起来。提出了一个新的、简单的网络架构，Transformer....

论文阅读_2DGS

发表于2025-06-01|论文阅读

2D Gaussian Splatting for Geometrically Accurate Radiance Fields 基本信息项目内容论文标题 2D Gaussian Splatting for Geometrically Accurate Radiance Fields 作者 Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao 第一单位 ShanghaiTech University, China 时间 2024 发表会议/期刊 SIGGRAPH Conference Papers '24 方法概览特点描述输入多视角RGB图像及其对应的相机位姿（由COLMAP估计的稀疏点云初始化）输出可实时渲染的2D高斯场景表示、高质量新视角合成图像、噪声低且几何准确的表面网格（Mesh）所属领域 3D场景表示与渲染、多视角几何重建 1....

AlexNet

发表于2025-06-01|论文阅读

李沐-AlexNet和卷积基础 ImageNet Classification With Deep Convolutional Neural Networks 俄罗斯人Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton 2012 在谷歌实习时候见到过这个人，汇报了这个工作。首个真正意义上的深度卷积神经网络摘要 ImageNet是一个很大的数据集超过1500万张在超过22,000个类别，取其中一部分1000个类在Imageet上top-1错误率37.5%，top-5错误率17.0%...