avatar
文章
148
标签
25
分类
10
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

无标题
发表于2025-12-08
Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 基本信息 项目 内容 论文标题 Adaptive Feature Enhanced Multi-View Stereo With Epipolar Line Information Aggregation 作者 Shaoqian Wang, Bo Li, Jian Yang, Yuchao Dai 作者单位 西北工业大学 (School of Electronics and Information, Northwestern Polytechnical University) 时间 2024 发表会议/期刊 IEEE Robotics and Automation Letters (LRA), Vol. 9, No. 11, November...
无标题
发表于2025-12-08
ETV-MVS: Robust Visibility-Aware Multi-View Stereo with Epipolar Line-Based Transformer 基本信息 项目 内容 论文标题 ETV-MVS: Robust Visibility-Aware Multi-View Stereo with Epipolar Line-Based Transformer 作者 Shaoqian Wang, Xiaokun Ding, Yuxin Mao, Yuchao Dai* 作者单位 西北工业大学 (Northwestern Polytechnical University) 时间 2025年 发表会议/期刊 Big Data Mining and Analytics (BDMA), Volume 8, Number 3, June 2025 方法概览 特点 文章性质 输入 一个参考图像和多个相邻的源图像,及其相机位姿 输出 参考图像对应的深度图,进而融合为3D点云 所属领域 多视角立体视觉...
论文阅读_MoGe 2
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details 作者 Ruicheng Wang1∗ Sicheng Xu2 Yue Dong2 Yu Deng2 Jianfeng Xiang3∗ Zelong Lv1∗ Guangzhong Sun1 Xin Tong2 Jiaolong Yang 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 将MoGe扩展为公制几何预测,同时不损害仿射不变点表示提供的相对几何精度。 所属领域 视觉...
论文阅读_变分自编码器VAE
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Auto-Encoding Variational Bayes 作者 Diederik P. Kingma 和 Max Welling 作者单位 发表会议/期刊 2013 论文链接 别名 Variational Autoencoder,变分自编码器 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 背景 传统自编码器 (Autoencoder) 的局限,比如PCA: 传统AE由编码器(Encoder)和解码器(Decoder)组成。 编码器将输入数据 x 压缩成一个低维的潜在向量 z。 解码器尝试从 z 重构回原始数据 x。 PCA:x本身是一个矩阵,通过一个变换W变成了一个低维矩阵c,因为这一过程是线性的,所以再通过一个WT变换就能还原出一个x ^ \widehat{x} x ,现在我们要找到一种变换W,使得矩阵x与x ^ \widehat{x}...
学习笔记_SFM
发表于2025-12-03|论文阅读
SFM SFM是什么?和MVS的对比? 运动恢复结构(SfM)问题是从二维(2D)图像的集合中恢复静止场景的三维(3D)结构的问题 SFM相当于获得由二维点获得三维点输出稀疏点云还有每张图片对应的相机参数 MVS相当于给三维点贴图输出稠密点云 3D点阵可以通过MeshLab来重建稀疏的Mesh。也可以通过PMVS(Patch-based Multi-view Stereo)来重建Dense的Mesh SFM的阶段 SfM 涉及三个主要阶段: 提取图像中的特征(例如,兴趣点、线条等)并在图像之间匹配这些特征 SIFT,SURF来提取并匹配,也可以用最新的AKAZE(SIFT的改进版,2010)来匹配。 误匹配会造成较大的Error,所以要对匹配进行筛选,目前流行的方法是RANSAC(Random Sample Consensus)。2D的误匹配点可以应用3D的Geometric特征来进行排除。 相机运动估计–外参(使用提取的特征) 使用估计的外参特征恢复 3D 结构(通过最小化所谓的重投影误差) 该技术旨在优化称为total reprojection...
学习笔记_位置编码
发表于2025-12-03|论文阅读
给输入序列注入“位置信息”,让模型知道“每个元素在什么位置”。 位置编码的两大类型 类型 特点 代表 **固定位置编码 **(Fixed) 位置编码是预定义的,不可学习 原始 Transformer 的正弦编码 **可学习位置编码 **(Learned) 位置编码是可训练的参数,就是字典啦,tokenizer把文本变成数字编码之后做的 BERT、ViT 的 position embedding 正弦位置编码(Sinusoidal Positional Encoding) 这是 原始 Transformer 论文(“Attention is All You Need”, 2017)中提出的方法。 核心思想:使用正弦和余弦函数生成位置编码。编码是确定性的、固定的,不参与训练。可以表示任意长度的位置,外推性好 123456789101112131415161718192021import torchimport torch.nn as nnimport mathclass SinusoidalPositionalEncoding(nn.Module): ...
学习笔记_文生图串讲
发表于2025-12-03|论文阅读
目前我的理解有两个阵营 Stable Diffusion=DiffusionUNet+VAE+CLIP Dalle2=CLIP+像素级别DiffusionUNet 其他还有其他的文生图的网络,也用了diffusion, Imagen=T5+DiffusionTransformer不开源 Midjourney不开源 特性 DALL·E 2 Stable Diffusion 开发者 OpenAI Stability AI, CompVis, LMU 开源状态 ❌ 闭源,通过 API 或 Web 界面使用 ✅ 完全开源,可本地部署 架构 基于 CLIP + 级联扩散模型,也是一个diffusion的 基于潜在空间的扩散模型 (Latent Diffusion) 访问方式 订阅制(按生成次数付费) 免费开源,可自行运行 社区与定制 有限,无法微调模型 拥有庞大的社区,可训练 LoRA、Dreambooth 模型等 成风格 通常更“安全”、更偏向摄影/插画 风格极其多样,取决于微调模型 生去噪空间 扩散过程主要在像素空间或CLIP...
学习笔记_深度学习入门几个常见的概念
发表于2025-12-03|论文阅读
无监督和有监督学习 监督学习(supervised learning) 擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本(example)。 回归问题:(regression)平方误差损失函数。 分类问题:(classification)分类问题希望模型能够预测样本属于哪个类别(category,正式称为类(class)),当有两个以上的类别时,我们把这个问题称为多项分类(multiclass classification)问题。 常见的例子包括手写字符识别 。 与解决回归问题不同,分类问题的常见损失函数被称为交叉熵(cross-entropy) 标记问题:学习预测不相互排斥的类别的问题称为多标签分类(multi-label...
实践日记_AlphaPose微调
发表于2025-12-03|论文阅读
AlphaPose_finetune和自定义关键点 我有以下几个目标 我创建了一个只有运动员的数据集,我需要在Alphapose上做微调训练或者完全重新训练 我的运动员穿着服装非常单一,我需要修改yolo检测部分让他能够只识别运动员 我的运动员数据集相对于coco数据集17个关键点,多了手背脚尖腰部5个关键点,现在我需要针对这个骨架重新编写一个data并进行训练,使得我的Alphapose能够输出22个坐标点 数据集准备 MSCOCO 我这里准备的是coco数据集,这里的coco数据集需要注意 一定要用数字做图像名称 要添加url train和val目录不能出现有相同名称的图像 1234567891011121314151617181920|-- json|-- exp|-- alphapose|-- configs|-- test|-- data`-- |-- coco `-- |-- annotations | |-- person_keypoints_train2017.json | `--...
实践日记_我的论文管理方法
发表于2025-12-03|论文阅读
zotero下载pdf,我一般看arxiv的文章,然后保存pdf,webav到坚果云 有些需要用思维导图做笔记的,利用mindmaster,那个再说了 针对每一个文献,建立一个连接到obsidian的md文件,这里用一个插件betternote插件,可以自动建立文献同名的md文件并创建在obsidian的文件夹目录下plugins [Zotero Documentation], obsidian使用一个attachment management来管理图片,像typora一样把截图保存在md同名的文件夹下 把文献的pdf建立一个github的仓库,是hexo的模板的仓库,然后定期进行推送到远端,并部署blog网页到个人主页,记得obsidian的图片的格式不是标准的markdown的,所以需要关闭wiki格式,自己查一下什么意思
12…15
avatar
outbreak_sen
an interesting man
文章
148
标签
25
分类
10
Follow Me
公告
This is my Blog
最新文章
无标题2025-12-08
无标题2025-12-08
论文阅读_MoGe 22025-12-03
论文阅读_变分自编码器VAE2025-12-03
学习笔记_SFM2025-12-03
分类
  • swift2
  • 传统图形学1
  • 嵌入式1
  • 深度学习6
  • 相机驱动开发1
  • 编译1
  • 论文阅读125
  • 这个一个测试11
标签
SFM 硬触发 mindNLP 实习 证券投资 python LLVM 相机驱动 Hexo-butterfly nodejs 这也是一个测试 算子 深度学习 GAN生成对抗模型 Muilt View Stereo mindspore实习 Hexo QT colmap huggingface siwft shell Mindspore 深度相机 大恒
归档
  • 十二月 2025 115
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 4
  • 二月 2025 16
  • 十二月 2024 1
网站信息
文章数目 :
148
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2025 By outbreak_sen
框架 Hexo|主题 Butterfly