This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Improving Language Understanding by Generative Pre-training（GPT-1 作者作者单位 OpenAI 时间 2018 发表会议/期刊论文别名 Generative Pre-trained Transformer 模型年份论文标题参数量训练数据核心贡献 GPT-1 2018 Improving Language Understanding by Generative Pre-Training ~1.17 亿 BookCorpus 提出预训练 + 微调范式 GPT-2 2019 Language Models are Unsupervised Multitask Learners 1.5 亿 → 15 亿 WebText 提出零样本迁移（Zero-shot Transfer） GPT-3 2020 Language Models are Few-Shot Learners 1.75 亿 → 1750...

论文阅读_GoogleNet

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Going Deeper with Convolutions 作者 Szegedy et al. 作者单位 Google 团队时间 2014 发表会议/期刊方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视觉 Transformer 创新点提出 Inception 模块，在不显著增加参数的情况下大幅增加网络宽度和深度。22 层（按卷积/池化算），但参数仅 500 万（5M）无全连接层：使用 Global Average Pooling（GAP）替代 FC 层，支持任意输入尺寸，大幅减少参数。

论文阅读_High-Resolution Image Synthesis with Latent Diffusion Models

发表于2025-12-03|论文阅读

基于潜在扩散模型的高分辨率图像合成，Stable Diffusion的基础论文前置知识： Diffusion Models（DDPM）:扩散模型包括两个过程：前向过程（forward process）和反向过程（reverse process）其中前向过程又称为扩散过程（diffusion process）：对数据逐渐增加高斯噪音，直至数据变成随机噪音。 Diffusion Model（DDPM）训练过程就是训练UNet预测每一步的noise，从而逐步还原原始图像。原始图像空间的Diffusion Latent Diffusion Models（LDMs）:diffusion直接在原图进行图片的去噪处理，而 latend diffusion 是图像经过VAE编码器压缩的图像，进行diffusion处理，然后再通过解码器，对压缩后的latent 编码还原为图像。 Stable diffusion:一个基于Latent Diffusion Models（LDMs）的text2image模型的实现。 latent...

论文阅读_I3D

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Quo Vadis, action recognition? A new model and the kinetics dataset（Quo Vadis是一个老电影，”你要去哪？“）作者 Joao Carreira，Andrew Zisserman 作者单位 Google Research 时间 2017 发表会议/期刊全称 Inflation3D 方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视频分类，视频理解，视频动作识别在 I3D 之前，视频动作识别主要有前三种方式：方法问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征，RNN 建模时序，但时空分离，难以捕捉时空联合特征。纯 3D CNN（如...

论文阅读_IGEV

发表于2025-12-03|论文阅读

IGEV Iterative Geometry Encoding Volume for Stereo Matching 基本信息项目内容论文标题 Iterative Geometry Encoding Volume for Stereo Matching 作者 Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang 作者单位华中科技大学 (Huazhong University of Science and Technology) 时间 2025 发表会议/期刊未明确标注（预印本，可能为CVPR/ICCV等会议投稿）方法概览特点文章性质输入一对校正后的立体图像（左右视图）输出稠密视差图所属领域计算机视觉，立体匹配 1. 摘要精简本文提出了迭代几何编码体积 (IGEV-Stereo)，一种用于立体匹配的新型深度网络架构。针对RAFT-Stereo中全对相关性 (APC)...

论文阅读_双流网络

发表于2025-12-03|论文阅读

双流网络基本信息项目内容论文标题 Two-Stream ConvNets for Action Recognition in Videos 作者作者单位牛津大学时间 2014 发表会议/期刊全称 Two-Stream Network 方法概览特点文章性质输入一个输入图像序列，一个输入光流图序列输出分类所属领域视频分类，视频理解，视频动作识别在双流网络之前，视频动作识别主要有前两种方式：方法问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征，RNN 建模时序，但时空分离，难以捕捉时空联合特征。纯 3D CNN（如 C3D）能同时建模空间和时间，但通常从零训练，参数多、训练难、性能有限。双流网络在时间和空间上分别用卷积神经网络，时间上是先抽取光流，然后用卷积神经网络来学习光流到最后动作的一个映射关系，最后再融合（late...

论文阅读_变分自编码器VQ-VAE

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Neural Discrete Representation Learning 作者 Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu 作者单位发表会议/期刊 2017 论文链接别名 Vector Quantized-Variational Autoencoder 方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视觉 Transformer 背景标准 VAE 的局限：潜在变量 z 是连续的（通常是高斯分布）。这导致生成的样本（尤其是图像）往往比较模糊。连续潜在空间可能难以捕捉数据中固有的离散结构（如物体类别、音素、单词）。 VQ-VAE 的解决方案：放弃连续潜在变量：VQ-VAE 的编码器输出的不是分布参数，而是一个连续的潜在向量 z_e。引入离散潜在空间：这个连续向量 z_e 会通过一个向量量化 (Vector...

CUDA 环境的两种来源

发表于2025-12-03|论文阅读

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

数据集获得sparse点云流程

发表于2025-12-03|实践笔记

数据集获得sparse点云流程参考文献官方教程Reconstruct sparse/dense model from known camera...

如何把一个深度学习代码从torch框架改成mindspore框架

发表于2025-12-03|论文阅读

如何把一个深度学习代码从torch框架改成mindspore框架最重要的如何创建数据集和dataloader 在 MindSpore 静态图模式（@ms_function 或默认图模式）中是不允许 del xxx。 MindSpore 不支持detach() 1234# torch版本cur_depth = cur_depth.detach()# mindspore版本cur_depth = ops.stop_gradient(cur_depth) MindSpore 中调用了 imgs.size(1)，但 MindSpore 的 Tensor 没有 size() 方法，应该用 shape 属性 1234# torch版本for nview_idx in range(imgs.size(1)):# mindspore版本for nview_idx in range(imgs.shape[1]): ops.split 不支持 output_num 而是使用 split_size_or_sections 1hidden_d, inp_d =...