论文阅读_GPT
基本信息 项目 内容 论文标题 Improving Language Understanding by Generative Pre-training(GPT-1 作者 作者单位 OpenAI 时间 2018 发表会议/期刊 论文别名 Generative Pre-trained Transformer 模型 年份 论文标题 参数量 训练数据 核心贡献 GPT-1 2018 Improving Language Understanding by Generative Pre-Training ~1.17 亿 BookCorpus 提出 预训练 + 微调 范式 GPT-2 2019 Language Models are Unsupervised Multitask Learners 1.5 亿 → 15 亿 WebText 提出 零样本迁移(Zero-shot Transfer) GPT-3 2020 Language Models are Few-Shot Learners 1.75 亿 → 1750...
论文阅读_GoogleNet
基本信息 项目 内容 论文标题 Going Deeper with Convolutions 作者 Szegedy et al. 作者单位 Google 团队 时间 2014 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 创新点 提出 Inception 模块,在不显著增加参数的情况下大幅增加网络宽度和深度。22 层(按卷积/池化算),但参数仅 500 万(5M) 无全连接层:使用 Global Average Pooling(GAP) 替代 FC 层,支持任意输入尺寸,大幅减少参数。
论文阅读_High-Resolution Image Synthesis with Latent Diffusion Models
基于潜在扩散模型的高分辨率图像合成,Stable Diffusion的基础论文 前置知识: Diffusion Models(DDPM):扩散模型包括两个过程:前向过程(forward process)和反向过程(reverse process) 其中前向过程又称为扩散过程(diffusion process):对数据逐渐增加高斯噪音,直至数据变成随机噪音。 Diffusion Model(DDPM)训练过程就是训练UNet预测每一步的noise,从而逐步还原原始图像。原始图像空间的Diffusion Latent Diffusion Models(LDMs):diffusion直接在原图进行图片的去噪处理,而 latend diffusion 是图像经过VAE编码器压缩的图像,进行diffusion处理,然后再通过解码器,对压缩后的latent 编码还原为图像。 Stable diffusion:一个基于Latent Diffusion Models(LDMs)的text2image模型的实现。 latent...
论文阅读_I3D
基本信息 项目 内容 论文标题 Quo Vadis, action recognition? A new model and the kinetics dataset(Quo Vadis是一个老电影,”你要去哪?“) 作者 Joao Carreira,Andrew Zisserman 作者单位 Google Research 时间 2017 发表会议/期刊 全称 Inflation3D 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视频分类,视频理解,视频动作识别 在 I3D 之前,视频动作识别主要有前三种方式: 方法 问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征,RNN 建模时序,但时空分离,难以捕捉时空联合特征。 纯 3D CNN(如...
论文阅读_IGEV
IGEV Iterative Geometry Encoding Volume for Stereo Matching 基本信息 项目 内容 论文标题 Iterative Geometry Encoding Volume for Stereo Matching 作者 Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang 作者单位 华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊 未明确标注(预印本,可能为CVPR/ICCV等会议投稿) 方法概览 特点 文章性质 输入 一对校正后的立体图像(左右视图) 输出 稠密视差图 所属领域 计算机视觉,立体匹配 1. 摘要精简 本文提出了 迭代几何编码体积 (IGEV-Stereo),一种用于立体匹配的新型深度网络架构。针对RAFT-Stereo中全对相关性 (APC)...
论文阅读_双流网络
双流网络 基本信息 项目 内容 论文标题 Two-Stream ConvNets for Action Recognition in Videos 作者 作者单位 牛津大学 时间 2014 发表会议/期刊 全称 Two-Stream Network 方法概览 特点 文章性质 输入 一个输入图像序列,一个输入光流图序列 输出 分类 所属领域 视频分类,视频理解,视频动作识别 在 双流网络之前,视频动作识别主要有前两种方式: 方法 问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征,RNN 建模时序,但时空分离,难以捕捉时空联合特征。 纯 3D CNN(如 C3D) 能同时建模空间和时间,但通常从零训练,参数多、训练难、性能有限。 双流网络 在时间和空间上分别用卷积神经网络,时间上是先抽取光流,然后用卷积神经网络来学习光流到最后动作的一个映射关系,最后再融合(late...
论文阅读_变分自编码器VQ-VAE
基本信息 项目 内容 论文标题 Neural Discrete Representation Learning 作者 Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu 作者单位 发表会议/期刊 2017 论文链接 别名 Vector Quantized-Variational Autoencoder 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 背景 标准 VAE 的局限: 潜在变量 z 是连续的(通常是高斯分布)。 这导致生成的样本(尤其是图像)往往比较模糊。 连续潜在空间可能难以捕捉数据中固有的离散结构(如物体类别、音素、单词)。 VQ-VAE 的解决方案: 放弃连续潜在变量:VQ-VAE 的编码器输出的不是分布参数,而是一个连续的潜在向量 z_e。 引入离散潜在空间:这个连续向量 z_e 会通过一个向量量化 (Vector...
CUDA 环境的两种来源
🧩 一、CUDA 环境的两种来源 CUDA(Compute Unified Device Architecture)分为两部分: 类型 功能 通常位置 谁提供 CUDA Toolkit(开发套件) 编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime(运行时库) 运行 PyTorch / TensorFlow / cuDNN 等程序 通常是 .so 动态库 PyTorch(或 conda 包)自动安装 👉 也就是说: 系统 CUDA Toolkit:给开发者编译用(比如写 CUDA C++、编译自定义算子)。 conda/pip CUDA Runtime:给 PyTorch 运行用,不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别 对比项 系统 CUDA Toolkit conda CUDA runtime 用途 编译代码、开发 运行 PyTorch、推理训练 是否随 PyTorch 一起安装 否 是(通过...
数据集获得sparse点云流程
数据集获得sparse点云流程 参考文献 官方教程Reconstruct sparse/dense model from known camera...
如何把一个深度学习代码从torch框架改成mindspore框架
如何把一个深度学习代码从torch框架改成mindspore框架 最重要的如何创建数据集和dataloader 在 MindSpore 静态图模式(@ms_function 或默认图模式)中是不允许 del xxx。 MindSpore 不支持detach() 1234# torch版本cur_depth = cur_depth.detach()# mindspore版本cur_depth = ops.stop_gradient(cur_depth) MindSpore 中调用了 imgs.size(1),但 MindSpore 的 Tensor 没有 size() 方法,应该用 shape 属性 1234# torch版本for nview_idx in range(imgs.size(1)):# mindspore版本for nview_idx in range(imgs.shape[1]): ops.split 不支持 output_num 而是使用 split_size_or_sections 1hidden_d, inp_d =...
