This is a 部落格 of outbreak_sen

发表于2025-12-03|算法

如何自定义sort sort(key=lambda x: x[0]) 的含义 python 1intervals.sort(key=lambda x: x[0]) 这行代码的意思是：按照每个区间的第一个元素（起始位置）进行排序 intervals 是一个列表，每个元素是 [start, end] key 参数指定排序的依据 lambda x: x[0] 是一个匿名函数，输入 x（每个区间），输出 x[0]（区间的起始值），这个x是任意命名的排序时会根据这个输出值来决定顺序 1234567891011121314151617181920# 1. 按单个字段排序data = [[1, 3], [2, 6], [8, 10], [15, 18]]data.sort(key=lambda x: x[0]) # 按第一个元素升序data.sort(key=lambda x: x[1]) # 按第二个元素升序# 2. 按多个字段排序data.sort(key=lambda x: (x[0], x[1])) # 先按第一个，再按第二个data.sort(key=lambda x:...

实践日记_AlphaPose微调

发表于2025-12-03|算法

链表链表（Linked List）是什么链表是一种线性数据结构，由一系列节点组成，每个节点包含数据和指向下一个节点的指针。生活中的类比类比1：寻宝游戏每个地点有一张纸条纸条上写着下一个地点的地址你要按顺序一个一个找下去类比2：火车车厢每节车厢装着货物（数据）车厢之间用挂钩连接（指针）火车头就是链表的头节点链表的基本结构节点（Node） 1234class ListNode: def __init__(self, val=0, next=None): self.val = val # 节点存储的数据 self.next = next # 指向下一个节点的指针链表示意图 123456单向链表：[数据|指针] → [数据|指针] → [数据|指针] → None 节点1 节点2 节点3具体例子：[1|*] --> [2|*] --> [3|*] --> None 为什么需要链表？数组的缺点 12345678#...

论文阅读_ViT

发表于2025-12-03|论文阅读

An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息项目内容论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He（何恺明）、Xiangyu Zhang、Shaoqing Ren、Jian Sun（微软亚洲研究院）作者单位 Google Research 时间 2020 发表会议/期刊全称 Vision Transformer 方法概览特点文章性质输入单张 RGB 图像输出分类所属领域 CNN 存在一些局限：问题说明局部感受野卷积核只能看到局部区域，难以建模长距离依赖归纳偏置过强平移不变性、局部性等假设可能限制模型表达能力难以扩展模型变大时性能提升有限创新点首次成功地将纯...

论文阅读_VilT

发表于2025-12-03|论文阅读

Learning Visual Language Representation from Web-scale Weak-supervised Data 基本信息项目内容论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者作者单位韩国科学技术院（KAIST）时间 2021 发表会议/期刊方法概览特点文章性质输入输出所属领域背景在ViLT之前，主流的视觉-语言模型（如LXMERT, CLIP, ALIGN, UNITER等）通常采用以下架构：独立的特征提取器：使用一个预训练的视觉编码器（如ResNet或Faster R-CNN）将图像转换为一组区域特征（region features）或网格特征（grid...

论文阅读_Zero-1-to-3

发表于2025-12-03|论文阅读

Zero-Shot 3D Content Generation from a Single Image 基本信息项目内容论文标题 Zero-Shot 3D Content Generation from a Single Image 作者作者单位加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院时间 2023 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出从指定相机视点合成图像进一步生成三维模型所属领域新视图合成和 3D 形状重建创新点 Zero1to3的核心是一个条件扩散模型（Conditional Diffusion Model），但它不是直接生成3D网格或点云，而是生成多视角的二维图像。利用了强大的几何先验： Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型（如MiDaS或DPT）从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...

论文阅读_ImageSculpting

发表于2025-12-03|论文阅读

Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D，直接在3D空间中编辑目标，然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作生成图像编辑：现有方法仅限于 2D 空间，通常依赖于文本指令：Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而，更具体的指令，如“将物体抬起 5 厘米并旋转 42 度”，不太可能成功，因为当前的生成模型无法仅通过文本提示来满足此类详细请求。基于 2D...

论文阅读_MAE

发表于2025-12-03|论文阅读

An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息项目内容论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders，cv中的bert 方法概览特点文章性质输入单张 RGB 图像输出分类所属领域在 MAE 之前，视觉自监督学习主要有两类方法：对比学习（Contrastive Learning）如 SimCLR、MoCo：通过“拉近正样本，推远负样本”学习，需要精心设计数据增强和负样本生成式建模如 VAE、iGPT：重建完整图像，计算成本高，关注低级细节（如像素）能否像 BERT...

论文阅读_MASt3R-MVS

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2025 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MASt3R-SFM

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者作者单位 NAVER LABS Europe（欧洲Naver实验室）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入单张 RGB 图像输出所属领域一个 3D 点、一个置信度值和一个局部特征。创新点在 DUSt3R 前额外加一个 network 输出稠密的 local features，并添加 matching loss 来训练。最后引入一种快速相互匹配方案，能够将匹配速度提高几个数量级。网络架构如何匹配？背景知识匹配方法通常被归结为一个三步流程，首先提取稀疏且可重复的关键点，然后用局部不变特征描述它们，最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...

论文阅读_MASt3R-Slam

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London（帝国理工）时间 2024.6 发表会议/期刊全称方法概览特点文章性质输入图像对输出三维信息，图像位姿所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...