avatar
文章
191
标签
66
分类
14
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者
LogoThis is a 部落格 of outbreak_sen
主页
博文
  • 分类
  • 时间轴
  • 标签
生活
  • 树洞
  • 作品与鉴赏
关于笔者

This is a 部落格 of outbreak_sen

算法_如何自定义sort
发表于2025-12-03|算法
如何自定义sort sort(key=lambda x: x[0]) 的含义 python 1intervals.sort(key=lambda x: x[0]) 这行代码的意思是:按照每个区间的第一个元素(起始位置)进行排序 intervals 是一个列表,每个元素是 [start, end] key 参数指定排序的依据 lambda x: x[0] 是一个匿名函数,输入 x(每个区间),输出 x[0](区间的起始值),这个x是任意命名的 排序时会根据这个输出值来决定顺序 1234567891011121314151617181920# 1. 按单个字段排序data = [[1, 3], [2, 6], [8, 10], [15, 18]]data.sort(key=lambda x: x[0]) # 按第一个元素升序data.sort(key=lambda x: x[1]) # 按第二个元素升序# 2. 按多个字段排序data.sort(key=lambda x: (x[0], x[1])) # 先按第一个,再按第二个data.sort(key=lambda x:...
实践日记_AlphaPose微调
发表于2025-12-03|算法
链表 链表(Linked List)是什么 链表是一种线性数据结构,由一系列节点组成,每个节点包含数据和指向下一个节点的指针。 生活中的类比 类比1:寻宝游戏 每个地点有一张纸条 纸条上写着下一个地点的地址 你要按顺序一个一个找下去 类比2:火车车厢 每节车厢装着货物(数据) 车厢之间用挂钩连接(指针) 火车头就是链表的头节点 链表的基本结构 节点(Node) 1234class ListNode: def __init__(self, val=0, next=None): self.val = val # 节点存储的数据 self.next = next # 指向下一个节点的指针 链表示意图 123456单向链表:[数据|指针] → [数据|指针] → [数据|指针] → None 节点1 节点2 节点3具体例子:[1|*] --> [2|*] --> [3|*] --> None 为什么需要链表? 数组的缺点 12345678#...
论文阅读_ViT
发表于2025-12-03|论文阅读
An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He(何恺明)、Xiangyu Zhang、Shaoqing Ren、Jian Sun(微软亚洲研究院) 作者单位 Google Research 时间 2020 发表会议/期刊 全称 Vision Transformer 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 CNN 存在一些局限: 问题 说明 局部感受野 卷积核只能看到局部区域,难以建模长距离依赖 归纳偏置过强 平移不变性、局部性等假设可能限制模型表达能力 难以扩展 模型变大时性能提升有限 创新点 首次成功地将 纯...
论文阅读_VilT
发表于2025-12-03|论文阅读
Learning Visual Language Representation from Web-scale Weak-supervised Data 基本信息 项目 内容 论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者 作者单位 韩国科学技术院(KAIST) 时间 2021 发表会议/期刊 方法概览 特点 文章性质 输入 输出 所属领域 背景 在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构: 独立的特征提取器: 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid...
论文阅读_Zero-1-to-3
发表于2025-12-03|论文阅读
Zero-Shot 3D Content Generation from a Single Image 基本信息 项目 内容 论文标题 Zero-Shot 3D Content Generation from a Single Image 作者 作者单位 加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院 时间 2023 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 从指定相机视点合成图像进一步生成三维模型 所属领域 新视图合成和 3D 形状重建 创新点 Zero1to3的核心是一个条件扩散模型(Conditional Diffusion Model),但它不是直接生成3D网格或点云,而是生成多视角的二维图像。 利用了强大的几何先验: Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型(如MiDaS或DPT)从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...
论文阅读_ImageSculpting
发表于2025-12-03|论文阅读
Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D,直接在3D空间中编辑目标,然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作 生成图像编辑:现有方法仅限于 2D 空间,通常依赖于文本指令:Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而,更具体的指令,如“将物体抬起 5 厘米并旋转 42 度”,不太可能成功,因为当前的生成模型无法仅通过文本提示来满足此类详细请求。 基于 2D...
论文阅读_MAE
发表于2025-12-03|论文阅读
An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders,cv中的bert 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 在 MAE 之前,视觉自监督学习主要有两类方法: 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素) 能否像 BERT...
论文阅读_MASt3R-MVS
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2025 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-SFM
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-Slam
发表于2025-12-03|论文阅读
基本信息 项目 内容 论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London(帝国理工) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 图像对 输出 三维信息,图像位姿 所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...
1234…20
avatar
outbreak_sen
an interesting man
文章
191
标签
66
分类
14
Follow Me
公告
This is my Blog
最新文章
swiftUI2026-03-09
FVMVS研制过程2026-01-17
论文阅读_MoGe 22025-12-03
论文阅读_变分自编码器VAE2025-12-03
学习笔记_SFM2025-12-03
分类
  • swift2
  • 传统图形学1
  • 学习笔记1
  • 实践笔记2
  • 嵌入式1
  • 工具笔记8
  • 深度学习6
  • 相机驱动开发1
标签
easymocap CUDA 深度相机 大恒 SLAM mesh 检测 LLVM 这也是一个测试 GAN生成对抗模型 python shell nodejs Track 三维重建 高斯 Qt siwft Muilt view stereo Muilt View Stereo mindNLP 生成 单目深度 BFS Mesh生成 DFS 多模态 Hexo-butterfly leetcode Diffusion 4D重建 tmux 深度学习 李沐 三维生成 NLP 算子 WSL huggingface SFM
归档
  • 三月 2026 1
  • 一月 2026 1
  • 十二月 2025 157
  • 八月 2025 1
  • 七月 2025 3
  • 六月 2025 8
  • 三月 2025 3
  • 二月 2025 16
网站信息
文章数目 :
191
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2026 By outbreak_sen
框架 Hexo|主题 Butterfly