算法_如何自定义sort
如何自定义sort sort(key=lambda x: x[0]) 的含义 python 1intervals.sort(key=lambda x: x[0]) 这行代码的意思是:按照每个区间的第一个元素(起始位置)进行排序 intervals 是一个列表,每个元素是 [start, end] key 参数指定排序的依据 lambda x: x[0] 是一个匿名函数,输入 x(每个区间),输出 x[0](区间的起始值),这个x是任意命名的 排序时会根据这个输出值来决定顺序 1234567891011121314151617181920# 1. 按单个字段排序data = [[1, 3], [2, 6], [8, 10], [15, 18]]data.sort(key=lambda x: x[0]) # 按第一个元素升序data.sort(key=lambda x: x[1]) # 按第二个元素升序# 2. 按多个字段排序data.sort(key=lambda x: (x[0], x[1])) # 先按第一个,再按第二个data.sort(key=lambda x:...
实践日记_AlphaPose微调
链表 链表(Linked List)是什么 链表是一种线性数据结构,由一系列节点组成,每个节点包含数据和指向下一个节点的指针。 生活中的类比 类比1:寻宝游戏 每个地点有一张纸条 纸条上写着下一个地点的地址 你要按顺序一个一个找下去 类比2:火车车厢 每节车厢装着货物(数据) 车厢之间用挂钩连接(指针) 火车头就是链表的头节点 链表的基本结构 节点(Node) 1234class ListNode: def __init__(self, val=0, next=None): self.val = val # 节点存储的数据 self.next = next # 指向下一个节点的指针 链表示意图 123456单向链表:[数据|指针] → [数据|指针] → [数据|指针] → None 节点1 节点2 节点3具体例子:[1|*] --> [2|*] --> [3|*] --> None 为什么需要链表? 数组的缺点 12345678#...
论文阅读_ViT
An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He(何恺明)、Xiangyu Zhang、Shaoqing Ren、Jian Sun(微软亚洲研究院) 作者单位 Google Research 时间 2020 发表会议/期刊 全称 Vision Transformer 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 CNN 存在一些局限: 问题 说明 局部感受野 卷积核只能看到局部区域,难以建模长距离依赖 归纳偏置过强 平移不变性、局部性等假设可能限制模型表达能力 难以扩展 模型变大时性能提升有限 创新点 首次成功地将 纯...
论文阅读_VilT
Learning Visual Language Representation from Web-scale Weak-supervised Data 基本信息 项目 内容 论文标题 Learning Visual Language Representation from Web-scale Weak-supervised Data 作者 作者单位 韩国科学技术院(KAIST) 时间 2021 发表会议/期刊 方法概览 特点 文章性质 输入 输出 所属领域 背景 在ViLT之前,主流的视觉-语言模型(如LXMERT, CLIP, ALIGN, UNITER等)通常采用以下架构: 独立的特征提取器: 使用一个预训练的视觉编码器(如ResNet或Faster R-CNN)将图像转换为一组区域特征(region features)或网格特征(grid...
论文阅读_Zero-1-to-3
Zero-Shot 3D Content Generation from a Single Image 基本信息 项目 内容 论文标题 Zero-Shot 3D Content Generation from a Single Image 作者 作者单位 加州大学圣地亚哥分校、英伟达、多伦多大学和麻省理工学院 时间 2023 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 从指定相机视点合成图像进一步生成三维模型 所属领域 新视图合成和 3D 形状重建 创新点 Zero1to3的核心是一个条件扩散模型(Conditional Diffusion Model),但它不是直接生成3D网格或点云,而是生成多视角的二维图像。 利用了强大的几何先验: Depth Estimation (深度估计): 模型首先使用一个预训练的单目深度估计模型(如MiDaS或DPT)从输入的单张2D图像中预测出一个粗略的深度图。这个深度图提供了关于物体表面距离的重要几何线索。 Camera Pose...
论文阅读_ImageSculpting
Image Sculpting: Precise Object Editing with 3D Geometry Control 通过结合3D几何和图形工具来编辑2D图像。Image Sculpting 将 2D 对象转换为 3D,直接在3D空间中编辑目标,然后高保真的渲染为2D图像。 Prob.Def input: one image,manipulation of the objects and their orientations in 3D space output:a high-quality edited 2D image 背景和相关工作 生成图像编辑:现有方法仅限于 2D 空间,通常依赖于文本指令:Prompt-to-Prompt [24]、Plug-and-Play [76]、InstructPix2Pix [10]、Imagic [34] 和 Object 3DIT [47] 然而,更具体的指令,如“将物体抬起 5 厘米并旋转 42 度”,不太可能成功,因为当前的生成模型无法仅通过文本提示来满足此类详细请求。 基于 2D...
论文阅读_MAE
An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 基本信息 项目 内容 论文标题 An Image is Worth 16x16 Words: Transformers for Image Classification at Scale 作者 Kaiming He 作者单位 Google Research 时间 2021 发表会议/期刊 ICCV 2021 全称 Masked Autoencoders,cv中的bert 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类 所属领域 在 MAE 之前,视觉自监督学习主要有两类方法: 对比学习(Contrastive Learning)如 SimCLR、MoCo:通过“拉近正样本,推远负样本”学习,需要精心设计数据增强和负样本 生成式建模如 VAE、iGPT:重建完整图像,计算成本高,关注低级细节(如像素) 能否像 BERT...
论文阅读_MASt3R-MVS
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2025 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-SFM
基本信息 项目 内容 论文标题 MUSt3R: Multi-view Network for Stereo 3D Reconstructio 作者 作者单位 NAVER LABS Europe(欧洲Naver实验室) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 一个 3D 点、一个置信度值和一个局部特征。 创新点 在 DUSt3R 前额外加一个 network 输出稠密的 local features,并添加 matching loss 来训练。最后引入一种快速相互匹配方案,能够将匹配速度提高几个数量级。 网络架构 如何匹配? 背景知识 匹配方法通常被归结为一个三步流程,首先提取稀疏且可重复的关键点,然后用局部不变特征描述它们,最后通过比较它们在特征空间中的距离来配对离散的关键点集。SIFT在 COLMAP等 3D...
论文阅读_MASt3R-Slam
基本信息 项目 内容 论文标题 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 作者 Riku Murai, Eric Dexheimer, Andrew J. Davison 作者单位 Imperial College London(帝国理工) 时间 2024.6 发表会议/期刊 全称 方法概览 特点 文章性质 输入 图像对 输出 三维信息,图像位姿 所属领域 SLAM视觉同步定位和映射Visual simultaneous localisation and...
