avatar
文章
148
标签
25
分类
10
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

论文阅读_SpatialTracker
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 SpatialTracker: Tracking Any 2D Pixels in 3D Space 作者 Yuxi Xiao1,3* Qianqian Wang2* Shangzhan Zhang1,3 Nan Xue3 Sida Peng彭斯达1 Yujun Shen3 Xiaowei Zhou1†周晓魏∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 浙江大学 UC伯克利 蚂蚁集团 时间 2024axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 3D 点轨迹 所属领域 点跟踪 一句话总结做了什么 跟踪 3D 空间中的 2D 像素。为了估计遮挡和复杂 3D 运动下的 2D 运动,将 2D 像素提升到 3D 中并在 3D...
论文阅读_SpatialTrackerV2
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 SpatialTrackerV2: 3D Point Tracking Made Easy3D 点跟踪变得简单 作者 Yuxi Xiao1∗ Jianyuan Wang2 Nan Xue3 Nikita Karaev2,4 Yuri Makarov4 Bingyi Kang5 Xing Zhu3 Hujun Bao1 Yujun Shen3 Xiaowei Zhou∗:平等贡献;†:项目负责人;‡:通讯作者。 作者单位 浙江大学 牛津大学 蚂蚁集团 Pixelwise AI 字节跳动种子(Bytedance Seed) 时间 20250719axiv 发表会议/期刊 方法概览 特点 文章性质 输入 单目视频 输出 3D 场景几何形状、相机姿势和 3D 点轨迹 所属领域 点跟踪,三维重建 一句话总结做了什么 从任意场景的单目视频中一次性生成一致的 3D 场景几何形状、相机姿势和 3D...
论文阅读_SwinTransformer
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 作者 作者单位 微软亚洲研究院(MSRA) 时间 2021 发表会议/期刊 论文别名 Shifted WindowTransformer 方法概览 特点 文章性质 输入 输出 所属领域 创新点 对于高分辨率图像,patch序列会非常长,导致计算量和内存消耗巨大,难以应用于目标检测、分割等需要处理高分辨率输入的任务。解决早期视觉Transformer(如ViT)在处理高分辨率图像时计算复杂度极高的问题 Swin Transformer = 分层Patch划分 + 窗口内自注意力 + 移位窗口连接 + Patch Merging下采样。 分层(Hierarchical)结构通过逐步合并patch来构建一个类似CNN的金字塔结构,从而生成多尺度的特征图。 Patch Partition:输入图像首先被分割成不重叠的 4x4 patch(或其他大小),每个 4x4 patch...
论文阅读_ThreeStudio
发表于2025-12-03|论文阅读
ThreeStudio threestudio是今年3D AIGC领域内很好的开源项目,以统一的框架集成实现了**| ProlificDreamer | DreamFusion | Magic3D | SJC | Latent-NeRF | Fantasia3D | TextMesh | | Zero-1-to-3 | Magic123 | HiFA | SDI | | InstructNeRF2NeRF | Control4D |**项目,覆盖了text prompts, single images和few-shot images为condition的3D 生成。深度学习框架用的是pytorch lighting
论文阅读_Transformer_Encoder_Decoder
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Attention is all you need 作者 很多共一 作者单位 Google Brain 团队(Vaswani et al.) 时间 2017 发表会议/期刊 方法概览 特点 文章性质 输入 输出 所属领域 EncoderLayer “自己看自己”:用 Self-Attention 编码输入,输出上下文表示。 DecoderLayer “边看自己,边看别人”:先自注意力(带掩码),再关注 Encoder 的输出。 创新点 完全抛弃 RNN 和 CNN,仅依靠 自注意力机制(Self-Attention) 实现序列建模。是 GPT、BERT、ChatGPT 等模型的基石。
论文阅读_VGG
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Very Deep Convolutional Networks for Large-Scale Image Recognition_ 作者 作者单位 牛津大学 Visual Geometry Group(VGG) 时间 2014 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 创新点 证明了网络深度对性能的重要性,提出了结构简洁、可复用的“小卷积核堆叠”设计范式。AlexNet(8 层)卷积核大(11×11, 5×5),难以扩展 所有卷积层都使用 3×3 卷积核,步长为 1,填充为 1 多个 3×3 卷积堆叠可以模拟大感受野,减少参数,增加非线性(更多 ReLU): 两个 3×3 卷积 ≈ 一个 5×5 卷积(感受野 5×5) 三个 3×3 卷积 ≈ 一个 7×7 卷积(感受野 7×7) VGG 探索了从 11 层到 19 层的多种网络结构。 使用 ReLU 和 Dropout,-...
论文阅读_VGGT-LONG
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 VGGT-Long: Chunk it, Loop it, Align it– Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences 作者 Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie 作者单位 南开大学;南京大学 时间 2025 发表会议/期刊 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 背景 问题 说明 面对室外长序列数据场景 CUT3R, Fast3R存在严重的漂移问题MASt3R-SLAM,...
工具笔记_QT usage
发表于2025-12-03|论文阅读
QT usage C++QT 遇到了qml等文件还是得用qt他原版 PyQT VScode+pyQT installation 安装PyQt 12pip install PyQt5pip install PyQt5-tools vscode安装PYQT Integration便于使用pyqt 12345678# Pyqt-integration > Qtdesigner: Path\venv_QT\Lib\site-packages\qt5_applications\Qt\bin\designer# Pyqt-integration > Pyuic: Cmd 用于转化ui格式为py\venv_QT\Scripts\pyuic5# Pyqt-integration > Pyuic > Compile: Filepath默认是将ui转化好的py文件存在当前目录的ui文件夹下 使用Pyuic工具,将 .ui文件转换为 .py文件。 在文件夹栏空白处点击右键点击「PYQT: New Form」启动Qt Designer软件 「文件 >...
工具笔记_WSLubuntuUsage
发表于2025-12-03|论文阅读
#安装oh-my-zsh gitee安装 sudo apt install curl git sh -c “$(curl -fsSL https://gitee.com/mirrors/oh-my-zsh/raw/master/tools/install.sh)” 外网安装 wget https://github.com/robbyrussell/oh-my-zsh/raw/master/tools/install.sh -O - | sh 安装Powerlevel10k主题 git clone --depth=1 powerlevel10k: Official mirror of https://github.com/romkatv/powerlevel10k {ZSH_CUSTOM:-HOME/.oh-my-zsh/custom}/themes/powerlevel10k 配置Powerlevel10k vim...
工具笔记_VSCode Python Debug 教程
发表于2025-12-03|论文阅读
VSCode Python Debug 教程 我有以下几个目的: debug时候传入参数,就像运行python test -pram a -pram1 b这样子,这个如何实现 如何实现conda环境下运行 看每个变量的大小和值 步进运行每一行 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758{ // 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。 // 欲了解更多信息,请访问: https://go.microsoft.com/fwlink/?linkid=830387 "version": "0.2.0", "configurations": [ // 基于内置的 Node.js 调试器 // 可以创建多个调试器,然后起不同名字,选择对应的进行操作...
1…345…15
avatar
outbreak_sen
an interesting man
文章
148
标签
25
分类
10
Follow Me
公告
This is my Blog
最新文章
无标题2025-12-08
无标题2025-12-08
论文阅读_MoGe 22025-12-03
论文阅读_变分自编码器VAE2025-12-03
学习笔记_SFM2025-12-03
分类
  • swift2
  • 传统图形学1
  • 嵌入式1
  • 深度学习6
  • 相机驱动开发1
  • 编译1
  • 论文阅读125
  • 这个一个测试11
标签
SFM 硬触发 mindNLP 实习 证券投资 python LLVM 相机驱动 Hexo-butterfly nodejs 这也是一个测试 算子 深度学习 GAN生成对抗模型 Muilt View Stereo mindspore实习 Hexo QT colmap huggingface siwft shell Mindspore 深度相机 大恒
归档
  • 十二月 2025 115
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 4
  • 二月 2025 16
  • 十二月 2024 1
网站信息
文章数目 :
148
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2025 By outbreak_sen
框架 Hexo|主题 Butterfly