avatar
文章
185
标签
66
分类
14
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

swiftUI
发表于2026-03-09|swift
swiftUI OK,我们先学习官方的swiftUI教程 Creating and combining views 创建一个项目 interface中的storyboard可以使用swift或者objective-C进行编写 项目初建 File > New > File (文件 > New > File) 以再次打开模板选择器。在用户界面部分,选择“SwiftUI 视图”,然后单击下一步。将文件命名为 CircleImage.swift,然后单击 Create。 12345678910111213141516171819202122232425262728import SwiftUI// `@main` 属性标识应用程序的入口点。@mainstruct LandmarksApp: App { var body: some Scene { WindowGroup { ContentView() } }}//...
FVMVS研制过程
发表于2026-01-17|学习笔记
...
论文阅读_MoGe 2
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details 作者 Ruicheng Wang1∗ Sicheng Xu2 Yue Dong2 Yu Deng2 Jianfeng Xiang3∗ Zelong Lv1∗ Guangzhong Sun1 Xin Tong2 Jiaolong Yang 作者单位 USTC Microsoft Research Tsinghua University 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 将MoGe扩展为公制几何预测,同时不损害仿射不变点表示提供的相对几何精度。 所属领域 视觉...
论文阅读_变分自编码器VAE
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Auto-Encoding Variational Bayes 作者 Diederik P. Kingma 和 Max Welling 作者单位 发表会议/期刊 2013 论文链接 别名 Variational Autoencoder,变分自编码器 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 背景 传统自编码器 (Autoencoder) 的局限,比如PCA: 传统AE由编码器(Encoder)和解码器(Decoder)组成。 编码器将输入数据 x 压缩成一个低维的潜在向量 z。 解码器尝试从 z 重构回原始数据 x。 PCA:x本身是一个矩阵,通过一个变换W变成了一个低维矩阵c,因为这一过程是线性的,所以再通过一个WT变换就能还原出一个x ^ \widehat{x} x ,现在我们要找到一种变换W,使得矩阵x与x ^ \widehat{x}...
学习笔记_SFM
发表于2025-12-03|论文阅读
SFM SFM是什么?和MVS的对比? 运动恢复结构(SfM)问题是从二维(2D)图像的集合中恢复静止场景的三维(3D)结构的问题 SFM相当于获得由二维点获得三维点输出稀疏点云还有每张图片对应的相机参数 MVS相当于给三维点贴图输出稠密点云 3D点阵可以通过MeshLab来重建稀疏的Mesh。也可以通过PMVS(Patch-based Multi-view Stereo)来重建Dense的Mesh SFM的阶段 SfM 涉及三个主要阶段: 提取图像中的特征(例如,兴趣点、线条等)并在图像之间匹配这些特征 SIFT,SURF来提取并匹配,也可以用最新的AKAZE(SIFT的改进版,2010)来匹配。 误匹配会造成较大的Error,所以要对匹配进行筛选,目前流行的方法是RANSAC(Random Sample Consensus)。2D的误匹配点可以应用3D的Geometric特征来进行排除。 相机运动估计–外参(使用提取的特征) 使用估计的外参特征恢复 3D 结构(通过最小化所谓的重投影误差) 该技术旨在优化称为total reprojection...
学习笔记_位置编码
发表于2025-12-03|论文阅读
给输入序列注入“位置信息”,让模型知道“每个元素在什么位置”。 位置编码的两大类型 类型 特点 代表 **固定位置编码 **(Fixed) 位置编码是预定义的,不可学习 原始 Transformer 的正弦编码 **可学习位置编码 **(Learned) 位置编码是可训练的参数,就是字典啦,tokenizer把文本变成数字编码之后做的 BERT、ViT 的 position embedding 正弦位置编码(Sinusoidal Positional Encoding) 这是 原始 Transformer 论文(“Attention is All You Need”, 2017)中提出的方法。 核心思想:使用正弦和余弦函数生成位置编码。编码是确定性的、固定的,不参与训练。可以表示任意长度的位置,外推性好 123456789101112131415161718192021import torchimport torch.nn as nnimport mathclass SinusoidalPositionalEncoding(nn.Module): ...
学习笔记_文生图串讲
发表于2025-12-03|论文阅读
目前我的理解有两个阵营 Stable Diffusion=DiffusionUNet+VAE+CLIP Dalle2=CLIP+像素级别DiffusionUNet 其他还有其他的文生图的网络,也用了diffusion, Imagen=T5+DiffusionTransformer不开源 Midjourney不开源 特性 DALL·E 2 Stable Diffusion 开发者 OpenAI Stability AI, CompVis, LMU 开源状态 ❌ 闭源,通过 API 或 Web 界面使用 ✅ 完全开源,可本地部署 架构 基于 CLIP + 级联扩散模型,也是一个diffusion的 基于潜在空间的扩散模型 (Latent Diffusion) 访问方式 订阅制(按生成次数付费) 免费开源,可自行运行 社区与定制 有限,无法微调模型 拥有庞大的社区,可训练 LoRA、Dreambooth 模型等 成风格 通常更“安全”、更偏向摄影/插画 风格极其多样,取决于微调模型 生去噪空间 扩散过程主要在像素空间或CLIP...
学习笔记_深度学习入门几个常见的概念
发表于2025-12-03|论文阅读
无监督和有监督学习 监督学习(supervised learning) 擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本(example)。 回归问题:(regression)平方误差损失函数。 分类问题:(classification)分类问题希望模型能够预测样本属于哪个类别(category,正式称为类(class)),当有两个以上的类别时,我们把这个问题称为多项分类(multiclass classification)问题。 常见的例子包括手写字符识别 。 与解决回归问题不同,分类问题的常见损失函数被称为交叉熵(cross-entropy) 标记问题:学习预测不相互排斥的类别的问题称为多标签分类(multi-label...
实践日记_YOLOX训练日记
发表于2025-12-03|实践笔记
...
实践日记_AlphaPose微调
发表于2025-12-03|论文阅读
AlphaPose_finetune和自定义关键点 我有以下几个目标 我创建了一个只有运动员的数据集,我需要在Alphapose上做微调训练或者完全重新训练 我的运动员穿着服装非常单一,我需要修改yolo检测部分让他能够只识别运动员 我的运动员数据集相对于coco数据集17个关键点,多了手背脚尖腰部5个关键点,现在我需要针对这个骨架重新编写一个data并进行训练,使得我的Alphapose能够输出22个坐标点 数据集准备 MSCOCO 我这里准备的是coco数据集,这里的coco数据集需要注意 一定要用数字做图像名称 要添加url train和val目录不能出现有相同名称的图像 1234567891011121314151617181920|-- json|-- exp|-- alphapose|-- configs|-- test|-- data`-- |-- coco `-- |-- annotations | |-- person_keypoints_train2017.json | `--...
12…19
avatar
outbreak_sen
an interesting man
文章
185
标签
66
分类
14
Follow Me
公告
This is my Blog
最新文章
swiftUI2026-03-09
FVMVS研制过程2026-01-17
论文阅读_MoGe 22025-12-03
论文阅读_变分自编码器VAE2025-12-03
学习笔记_SFM2025-12-03
分类
  • swift2
  • 传统图形学1
  • 学习笔记1
  • 实践笔记2
  • 嵌入式1
  • 工具笔记8
  • 深度学习6
  • 相机驱动开发1
标签
DFS stereo Diffusion 三维生成 SFM 硬触发 tmux transformer 算子 Mesh生成 实习 easymocap 4D重建 Mesh重建 论文整理 大恒 Muilt View Stereo leetcode VAE Track nodejs 前馈基础模型 huggingface python 检测 相机驱动 NLP 单目深度 ResNet siwft colmap mindspore实习 mesh CUDA Debug Muilt view stereo 这也是一个测试 Hexo 匹配 sdf
归档
  • 三月 2026 1
  • 一月 2026 1
  • 十二月 2025 151
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 3
  • 二月 2025 16
网站信息
文章数目 :
185
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2026 By outbreak_sen
框架 Hexo|主题 Butterfly