This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Auto-Encoding Variational Bayes 作者 Diederik P. Kingma 和 Max Welling 作者单位发表会议/期刊 2013 论文链接别名 Variational Autoencoder，变分自编码器方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视觉 Transformer 背景传统自编码器 (Autoencoder) 的局限，比如PCA：传统AE由编码器（Encoder）和解码器（Decoder）组成。编码器将输入数据 x 压缩成一个低维的潜在向量 z。解码器尝试从 z 重构回原始数据 x。 PCA：x本身是一个矩阵，通过一个变换W变成了一个低维矩阵c，因为这一过程是线性的，所以再通过一个WT变换就能还原出一个x ^ \widehat{x} x ,现在我们要找到一种变换W，使得矩阵x与x ^ \widehat{x}...

学习笔记_SFM

发表于2025-12-03|论文阅读

SFM SFM是什么？和MVS的对比？运动恢复结构（SfM）问题是从二维（2D）图像的集合中恢复静止场景的三维（3D）结构的问题 SFM相当于获得由二维点获得三维点输出稀疏点云还有每张图片对应的相机参数 MVS相当于给三维点贴图输出稠密点云 3D点阵可以通过MeshLab来重建稀疏的Mesh。也可以通过PMVS（Patch-based Multi-view Stereo）来重建Dense的Mesh SFM的阶段 SfM 涉及三个主要阶段：提取图像中的特征（例如，兴趣点、线条等）并在图像之间匹配这些特征 SIFT，SURF来提取并匹配，也可以用最新的AKAZE（SIFT的改进版，2010）来匹配。误匹配会造成较大的Error，所以要对匹配进行筛选，目前流行的方法是RANSAC（Random Sample Consensus）。2D的误匹配点可以应用3D的Geometric特征来进行排除。相机运动估计–外参（使用提取的特征）使用估计的外参特征恢复 3D 结构（通过最小化所谓的重投影误差）该技术旨在优化称为total reprojection...

学习笔记_位置编码

发表于2025-12-03|论文阅读

给输入序列注入“位置信息”，让模型知道“每个元素在什么位置”。位置编码的两大类型类型特点代表 **固定位置编码 **（Fixed）位置编码是预定义的，不可学习原始 Transformer 的正弦编码 **可学习位置编码 **（Learned）位置编码是可训练的参数，就是字典啦，tokenizer把文本变成数字编码之后做的 BERT、ViT 的 position embedding 正弦位置编码（Sinusoidal Positional Encoding）这是原始 Transformer 论文（“Attention is All You Need”, 2017）中提出的方法。核心思想：使用正弦和余弦函数生成位置编码。编码是确定性的、固定的，不参与训练。可以表示任意长度的位置，外推性好 123456789101112131415161718192021import torchimport torch.nn as nnimport mathclass SinusoidalPositionalEncoding(nn.Module): ...

学习笔记_文生图串讲

发表于2025-12-03|论文阅读

目前我的理解有两个阵营 Stable Diffusion=DiffusionUNet+VAE+CLIP Dalle2=CLIP+像素级别DiffusionUNet 其他还有其他的文生图的网络，也用了diffusion， Imagen=T5+DiffusionTransformer不开源 Midjourney不开源特性 DALL·E 2 Stable Diffusion 开发者 OpenAI Stability AI, CompVis, LMU 开源状态 ❌ 闭源，通过 API 或 Web 界面使用 ✅ 完全开源，可本地部署架构基于 CLIP + 级联扩散模型，也是一个diffusion的基于潜在空间的扩散模型 (Latent Diffusion) 访问方式订阅制（按生成次数付费）免费开源，可自行运行社区与定制有限，无法微调模型拥有庞大的社区，可训练 LoRA、Dreambooth 模型等成风格通常更“安全”、更偏向摄影/插画风格极其多样，取决于微调模型生去噪空间扩散过程主要在像素空间或CLIP...

实践日记_AlphaPose微调

发表于2025-12-03|论文阅读

学习笔记_深度学习入门几个常见的概念

发表于2025-12-03|论文阅读

无监督和有监督学习监督学习（supervised learning）擅长在“给定输入特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。回归问题：（regression）平方误差损失函数。分类问题：（classification）分类问题希望模型能够预测样本属于哪个类别（category，正式称为类（class）），当有两个以上的类别时，我们把这个问题称为多项分类（multiclass classification）问题。常见的例子包括手写字符识别。与解决回归问题不同，分类问题的常见损失函数被称为交叉熵（cross-entropy）标记问题：学习预测不相互排斥的类别的问题称为多标签分类（multi-label...

实践日记_YOLOX训练日记

发表于2025-12-03|实践笔记

...

实践笔记CUDA切换版本

发表于2025-12-03|工具笔记

实践笔记CUDA切换版本如果本地没有cuda，torch安装的时候的cuda-toolkit就已经是cuda环境了，就不需要cuda了但是如果需要cuda编译一些东西，比如AlphaPose需要cuda编译，就需要cuda安装到本地。安装之后，系统变量中多了 ==CUDA_PATH_V9_2== 和 ==NVCUDASAMPLES9_2_ROOT==两个环境变量，然后CUDA_PATH也会变成新的。 NVCUDASAMPLES_ROOT：D:\CUDA Documentation\NVIDIA Corporation\CUDA Samples\v9.2（Samples 的路径） CUDA_PATH _V9_2：D:\CUDA Documentation\NVIDIA GPU Computing Toolkit\CUDA\v9.2（CUDA Documentation 和 CUDA Development 的路径） CUDA_PATH:CUDA_PATH _V9_2的路径 Path中多了两个bin和libvvp两个变量 D:\CUDA...

实践日记_eastMocapInstallUsage

发表于2025-12-03|工具笔记

eastMocap Install and Usage easymocap关键点检测模块可以用HRNet或者Openpose 每次改完代码要python setup.py develop–uninstall 再 python setup.py develop Install OpenPose（拼尽全力无法战胜） 12345678910git clone https://github.com/CMU-Perceptual-Computing-Lab/openpose.git --depth 1cd openposegit submodule update --init --recursive --remotesudo apt install libopencv-devsudo apt install protobuf-compiler libgoogle-glog-devsudo apt install libboost-all-dev libhdf5-dev libatlas-base-devmkdir buildcd buildcmake .....

实践日记_我的论文管理方法

发表于2025-12-03|论文阅读

我的论文管理方法 zotero下载pdf，我一般看arxiv的文章，然后保存pdf，webav到坚果云有些需要用思维导图做笔记的，利用mindmaster，那个再说了针对每一个文献，建立一个连接到obsidian的md文件，这里用一个插件betternote插件，可以自动建立文献同名的md文件并创建在obsidian的文件夹目录下plugins [Zotero Documentation]， obsidian使用一个attachment management来管理图片，像typora一样把截图保存在md同名的文件夹下把文献的pdf建立一个github的仓库，是hexo的模板的仓库，然后定期进行推送到远端，并部署blog网页到个人主页，记得obsidian的图片的格式不是标准的markdown的，所以需要关闭wiki格式，自己查一下什么意思