avatar
文章
210
标签
71
分类
15
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

论文阅读_变分自编码器VAE
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Auto-Encoding Variational Bayes 作者 Diederik P. Kingma 和 Max Welling 作者单位 发表会议/期刊 2013 论文链接 别名 Variational Autoencoder,变分自编码器 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 背景 传统自编码器 (Autoencoder) 的局限,比如PCA: 传统AE由编码器(Encoder)和解码器(Decoder)组成。 编码器将输入数据 x 压缩成一个低维的潜在向量 z。 解码器尝试从 z 重构回原始数据 x。 PCA:x本身是一个矩阵,通过一个变换W变成了一个低维矩阵c,因为这一过程是线性的,所以再通过一个WT变换就能还原出一个x ^ \widehat{x} x ,现在我们要找到一种变换W,使得矩阵x与x ^ \widehat{x}...
学习笔记_SFM
发表于2025-12-03|论文阅读
SFM SFM是什么?和MVS的对比? 运动恢复结构(SfM)问题是从二维(2D)图像的集合中恢复静止场景的三维(3D)结构的问题 SFM相当于获得由二维点获得三维点输出稀疏点云还有每张图片对应的相机参数 MVS相当于给三维点贴图输出稠密点云 3D点阵可以通过MeshLab来重建稀疏的Mesh。也可以通过PMVS(Patch-based Multi-view Stereo)来重建Dense的Mesh SFM的阶段 SfM 涉及三个主要阶段: 提取图像中的特征(例如,兴趣点、线条等)并在图像之间匹配这些特征 SIFT,SURF来提取并匹配,也可以用最新的AKAZE(SIFT的改进版,2010)来匹配。 误匹配会造成较大的Error,所以要对匹配进行筛选,目前流行的方法是RANSAC(Random Sample Consensus)。2D的误匹配点可以应用3D的Geometric特征来进行排除。 相机运动估计–外参(使用提取的特征) 使用估计的外参特征恢复 3D 结构(通过最小化所谓的重投影误差) 该技术旨在优化称为total reprojection...
学习笔记_位置编码
发表于2025-12-03|论文阅读
给输入序列注入“位置信息”,让模型知道“每个元素在什么位置”。 位置编码的两大类型 类型 特点 代表 **固定位置编码 **(Fixed) 位置编码是预定义的,不可学习 原始 Transformer 的正弦编码 **可学习位置编码 **(Learned) 位置编码是可训练的参数,就是字典啦,tokenizer把文本变成数字编码之后做的 BERT、ViT 的 position embedding 正弦位置编码(Sinusoidal Positional Encoding) 这是 原始 Transformer 论文(“Attention is All You Need”, 2017)中提出的方法。 核心思想:使用正弦和余弦函数生成位置编码。编码是确定性的、固定的,不参与训练。可以表示任意长度的位置,外推性好 123456789101112131415161718192021import torchimport torch.nn as nnimport mathclass SinusoidalPositionalEncoding(nn.Module): ...
学习笔记_文生图串讲
发表于2025-12-03|论文阅读
目前我的理解有两个阵营 Stable Diffusion=DiffusionUNet+VAE+CLIP Dalle2=CLIP+像素级别DiffusionUNet 其他还有其他的文生图的网络,也用了diffusion, Imagen=T5+DiffusionTransformer不开源 Midjourney不开源 特性 DALL·E 2 Stable Diffusion 开发者 OpenAI Stability AI, CompVis, LMU 开源状态 ❌ 闭源,通过 API 或 Web 界面使用 ✅ 完全开源,可本地部署 架构 基于 CLIP + 级联扩散模型,也是一个diffusion的 基于潜在空间的扩散模型 (Latent Diffusion) 访问方式 订阅制(按生成次数付费) 免费开源,可自行运行 社区与定制 有限,无法微调模型 拥有庞大的社区,可训练 LoRA、Dreambooth 模型等 成风格 通常更“安全”、更偏向摄影/插画 风格极其多样,取决于微调模型 生去噪空间 扩散过程主要在像素空间或CLIP...
实践日记_AlphaPose微调
发表于2025-12-03|论文阅读
AlphaPose_finetune和自定义关键点 我有以下几个目标 我创建了一个只有运动员的数据集,我需要在Alphapose上做微调训练或者完全重新训练 我的运动员穿着服装非常单一,我需要修改yolo检测部分让他能够只识别运动员 我的运动员数据集相对于coco数据集17个关键点,多了手背脚尖腰部5个关键点,现在我需要针对这个骨架重新编写一个data并进行训练,使得我的Alphapose能够输出22个坐标点 数据集准备 MSCOCO 我这里准备的是coco数据集,这里的coco数据集需要注意 一定要用数字做图像名称 要添加url train和val目录不能出现有相同名称的图像 1234567891011121314151617181920|-- json|-- exp|-- alphapose|-- configs|-- test|-- data`-- |-- coco `-- |-- annotations | |-- person_keypoints_train2017.json | `--...
学习笔记_深度学习入门几个常见的概念
发表于2025-12-03|论文阅读
无监督和有监督学习 监督学习(supervised learning) 擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本(example)。 回归问题:(regression)平方误差损失函数。 分类问题:(classification)分类问题希望模型能够预测样本属于哪个类别(category,正式称为类(class)),当有两个以上的类别时,我们把这个问题称为多项分类(multiclass classification)问题。 常见的例子包括手写字符识别 。 与解决回归问题不同,分类问题的常见损失函数被称为交叉熵(cross-entropy) 标记问题:学习预测不相互排斥的类别的问题称为多标签分类(multi-label...
实践日记_YOLOX训练日记
发表于2025-12-03|实践笔记
...
实践笔记CUDA切换版本
发表于2025-12-03|工具笔记
实践笔记CUDA切换版本 如果本地没有cuda,torch安装的时候的cuda-toolkit就已经是cuda环境了,就不需要cuda了 但是如果需要cuda编译一些东西,比如AlphaPose需要cuda编译,就需要cuda安装到本地。 安装之后, 系统变量中多了 ==CUDA_PATH_V9_2== 和 ==NVCUDASAMPLES9_2_ROOT==两个环境变量,然后CUDA_PATH也会变成新的。 NVCUDASAMPLES_ROOT:D:\CUDA Documentation\NVIDIA Corporation\CUDA Samples\v9.2(Samples 的路径) CUDA_PATH _V9_2:D:\CUDA Documentation\NVIDIA GPU Computing Toolkit\CUDA\v9.2(CUDA Documentation 和 CUDA Development 的路径) CUDA_PATH:CUDA_PATH _V9_2的路径 Path中多了两个bin和libvvp两个变量 D:\CUDA...
实践日记_eastMocapInstallUsage
发表于2025-12-03|工具笔记
eastMocap Install and Usage easymocap关键点检测模块可以用HRNet或者Openpose 每次改完代码要python setup.py develop–uninstall 再 python setup.py develop Install OpenPose(拼尽全力无法战胜) 12345678910git clone https://github.com/CMU-Perceptual-Computing-Lab/openpose.git --depth 1cd openposegit submodule update --init --recursive --remotesudo apt install libopencv-devsudo apt install protobuf-compiler libgoogle-glog-devsudo apt install libboost-all-dev libhdf5-dev libatlas-base-devmkdir buildcd buildcmake .....
实践日记_我的论文管理方法
发表于2025-12-03|论文阅读
我的论文管理方法 zotero下载pdf,我一般看arxiv的文章,然后保存pdf,webav到坚果云 有些需要用思维导图做笔记的,利用mindmaster,那个再说了 针对每一个文献,建立一个连接到obsidian的md文件,这里用一个插件betternote插件,可以自动建立文献同名的md文件并创建在obsidian的文件夹目录下plugins [Zotero Documentation], obsidian使用一个attachment management来管理图片,像typora一样把截图保存在md同名的文件夹下 把文献的pdf建立一个github的仓库,是hexo的模板的仓库,然后定期进行推送到远端,并部署blog网页到个人主页,记得obsidian的图片的格式不是标准的markdown的,所以需要关闭wiki格式,自己查一下什么意思
1234…21
avatar
outbreak_sen
an interesting man
文章
210
标签
71
分类
15
Follow Me
公告
This is my Blog
最新文章
无标题2026-03-31
无标题2026-03-31
无标题2026-03-31
无标题2026-03-25
无标题2026-03-24
分类
  • swift2
  • 传统图形学1
  • 学习笔记1
  • 实践笔记2
  • 嵌入式1
  • 工具笔记10
  • 深度学习11
  • 点云配准6
标签
mesh easymocap SFM Mindspore 算子 transformer 硬触发 GAN生成对抗模型 LLVM 这也是一个测试 李沐 colmap shell siwft openclaw 三维生成 MuiltViewStereo nodejs 深度相机 生成 NLP 检测 视频理解 mindNLP 大恒 实习 匹配 VAE huggingface stereo CUDA Diffusion Mesh重建 多模态 leetcode Muilt View Stereo QT 4D重建 三维重建 Stereo
归档
  • 三月 2026 18
  • 一月 2026 1
  • 十二月 2025 159
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 3
  • 二月 2025 16
网站信息
文章数目 :
210
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2026 By outbreak_sen
框架 Hexo|主题 Butterfly