avatar
文章
148
标签
25
分类
10
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

实践日记_YOLOX训练日记
发表于2025-12-03|论文阅读
...
实践笔记CUDA切换版本
发表于2025-12-03|论文阅读
如果本地没有cuda,torch安装的时候的cuda-toolkit就已经是cuda环境了,就不需要cuda了 但是如果需要cuda编译一些东西,比如AlphaPose需要cuda编译,就需要cuda安装到本地。 安装之后, 系统变量中多了 ==CUDA_PATH_V9_2== 和 ==NVCUDASAMPLES9_2_ROOT==两个环境变量,然后CUDA_PATH也会变成新的。 NVCUDASAMPLES_ROOT:D:\CUDA Documentation\NVIDIA Corporation\CUDA Samples\v9.2(Samples 的路径) CUDA_PATH _V9_2:D:\CUDA Documentation\NVIDIA GPU Computing Toolkit\CUDA\v9.2(CUDA Documentation 和 CUDA Development 的路径) CUDA_PATH:CUDA_PATH _V9_2的路径 Path中多了两个bin和libvvp两个变量 D:\CUDA Documentation\NVIDIA GPU...
深度学习代码学习笔记
发表于2025-12-03|论文阅读
深度学习代码学习笔记 setuptools 介绍是什么 简单使用 _ all _是什么 当我们向文件导入某个模块时,导入的是该模块中那些名称不以下划线(单下划线“_”或者双下划线“__”)开头的变量、函数和类。因此,如果我们不想模块文件中的某个成员被引入到其它文件中使用,可以在其名称前添加下划线。 通过在模块文件中设置__all__变量,当其它文件以“from 模块名 import *”的形式导入该模块时,该文件中只能使用__all__ 列表中指定的成员。 12345678910111213141516171819# mytest.py__all__ = ['a','b','d'] #这里不同def a(): print('aaaaa')def b(): print('bbbbb') def c(): # 这里不同 print('ccccc')def _d(): ...
论文阅读_VilT
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者 作者单位 韩国科学技术院(KAIST) 时间 2021 发表会议/期刊 方法概览 特点 文章性质 输入 输出 所属领域 背景 在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构: 独立的特征提取器: 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid...
论文阅读_ViT
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He(何恺明)、Xiangyu Zhang、Shaoqing Ren、Jian Sun(微软亚洲研究院) 作者单位 Google Research 时间 2020 发表会议/期刊 全称 Vision Transformer 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 CNN 存在一些局限: 问题 说明 局部感受野 卷积核只能看到局部区域,难以建模长距离依赖 归纳偏置过强 平移不变性、局部性等假设可能限制模型表达能力 难以扩展 模型变大时性能提升有限 创新点 首次成功地将 纯 Transformer 架构 直接应用于图像分类任务 网络架构 1234567891011121314151617输入图像 (224x224x3) ↓分割成 16x16...
论文阅读_Zero-1-to-3
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 Zero-Shot 3D Content Generation from a Single Image 作者 作者单位 加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院 时间 2023 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 从指定相机视点合成图像进一步生成三维模型 所属领域 新视图合成和 3D 形状重建 创新点 Zero1to3的核心是一个条件扩散模型(Conditional Diffusion Model),但它不是直接生成3D网格或点云,而是生成多视角的二维图像。 利用了强大的几何先验: Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型(如MiDaS或DPT)从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...
实践日记_eastMocapInstallUsage
发表于2025-12-03|论文阅读
eastMocap Install and Usage easymocap关键点检测模块可以用HRNet或者Openpose 每次改完代码要python setup.py develop–uninstall 再 python setup.py develop Install OpenPose(拼尽全力无法战胜) 12345678910git clone https://github.com/CMU-Perceptual-Computing-Lab/openpose.git --depth 1cd openposegit submodule update --init --recursive --remotesudo apt install libopencv-devsudo apt install protobuf-compiler libgoogle-glog-devsudo apt install libboost-all-dev libhdf5-dev libatlas-base-devmkdir buildcd buildcmake .....
论文阅读_ImageSculpting
发表于2025-12-03|论文阅读
Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D,直接在3D空间中编辑目标,然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作 生成图像编辑:现有方法仅限于 2D 空间,通常依赖于文本指令:Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而,更具体的指令,如“将物体抬起 5 厘米并旋转 42 度”,不太可能成功,因为当前的生成模型无法仅通过文本提示来满足此类详细请求。 基于 2D...
论文阅读_MAE
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders,cv中的bert 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 在 MAE 之前,视觉自监督学习主要有两类方法: 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素) 能否像 BERT 一样,用掩码重建(Masked Reconstruction)来学习视觉表征?BERT 成功的关键是:掩码掉 15%...
论文阅读_MASt3R-MVS
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2025 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
123…15
avatar
outbreak_sen
an interesting man
文章
148
标签
25
分类
10
Follow Me
公告
This is my Blog
最新文章
无标题2025-12-08
无标题2025-12-08
论文阅读_MoGe 22025-12-03
论文阅读_变分自编码器VAE2025-12-03
学习笔记_SFM2025-12-03
分类
  • swift2
  • 传统图形学1
  • 嵌入式1
  • 深度学习6
  • 相机驱动开发1
  • 编译1
  • 论文阅读125
  • 这个一个测试11
标签
SFM 硬触发 mindNLP 实习 证券投资 python LLVM 相机驱动 Hexo-butterfly nodejs 这也是一个测试 算子 深度学习 GAN生成对抗模型 Muilt View Stereo mindspore实习 Hexo QT colmap huggingface siwft shell Mindspore 深度相机 大恒
归档
  • 十二月 2025 115
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 4
  • 二月 2025 16
  • 十二月 2024 1
网站信息
文章数目 :
148
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2025 By outbreak_sen
框架 Hexo|主题 Butterfly