This is a 部落格 of outbreak_sen

论文阅读_High-Resolution Image Synthesis with Latent Diffusion Models

发表于2025-12-03|论文阅读

基于潜在扩散模型的高分辨率图像合成，Stable Diffusion的基础论文前置知识： Diffusion Models（DDPM）:扩散模型包括两个过程：前向过程（forward process）和反向过程（reverse process）其中前向过程又称为扩散过程（diffusion process）：对数据逐渐增加高斯噪音，直至数据变成随机噪音。 Diffusion Model（DDPM）训练过程就是训练UNet预测每一步的noise，从而逐步还原原始图像。原始图像空间的Diffusion Latent Diffusion Models（LDMs）:diffusion直接在原图进行图片的去噪处理，而 latend diffusion 是图像经过VAE编码器压缩的图像，进行diffusion处理，然后再通过解码器，对压缩后的latent 编码还原为图像。 Stable diffusion:一个基于Latent Diffusion Models（LDMs）的text2image模型的实现。 latent...

论文阅读_I3D

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Quo Vadis, action recognition? A new model and the kinetics dataset（Quo Vadis是一个老电影，”你要去哪？“）作者 Joao Carreira，Andrew Zisserman 作者单位 Google Research 时间 2017 发表会议/期刊全称 Inflation3D 方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视频分类，视频理解，视频动作识别在 I3D 之前，视频动作识别主要有前三种方式：方法问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征，RNN 建模时序，但时空分离，难以捕捉时空联合特征。纯 3D CNN（如...

论文阅读_双流网络

发表于2025-12-03|论文阅读

双流网络基本信息项目内容论文标题 Two-Stream ConvNets for Action Recognition in Videos 作者作者单位牛津大学时间 2014 发表会议/期刊全称 Two-Stream Network 方法概览特点文章性质输入一个输入图像序列，一个输入光流图序列输出分类所属领域视频分类，视频理解，视频动作识别在双流网络之前，视频动作识别主要有前两种方式：方法问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征，RNN 建模时序，但时空分离，难以捕捉时空联合特征。纯 3D CNN（如 C3D）能同时建模空间和时间，但通常从零训练，参数多、训练难、性能有限。双流网络在时间和空间上分别用卷积神经网络，时间上是先抽取光流，然后用卷积神经网络来学习光流到最后动作的一个映射关系，最后再融合（late...

论文阅读_变分自编码器VQ-VAE

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Neural Discrete Representation Learning 作者 Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu 作者单位发表会议/期刊 2017 论文链接别名 Vector Quantized-Variational Autoencoder 方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视觉 Transformer 背景标准 VAE 的局限：潜在变量 z 是连续的（通常是高斯分布）。这导致生成的样本（尤其是图像）往往比较模糊。连续潜在空间可能难以捕捉数据中固有的离散结构（如物体类别、音素、单词）。 VQ-VAE 的解决方案：放弃连续潜在变量：VQ-VAE 的编码器输出的不是分布参数，而是一个连续的潜在向量 z_e。引入离散潜在空间：这个连续向量 z_e 会通过一个向量量化 (Vector...

工具笔记_基于PyQT的GUI制作基本操作和技巧

发表于2025-12-03|论文阅读

PyQT基本语法和操作环境配置与GUI绘制思路 UI和算法代码看作前端和再 UI与代码分离用 Qt Designer 设计界面并保存为 mywidget.ui,在代码里动态加载 .ui 文件，用 uic 模块加载比如一个按钮叫 pushButton，就可以用 self.pushButton 访问。不用生成 Python 代码，方便快速修改 UI 1234567from PyQt5 import uicfrom PyQt5.QtWidgets import QWidgetclass MyWidget(QWidget): def __init__(self): super().__init__() uic.loadUi('mywidget.ui', self) # 直接加载ui文件，控件自动成为self的属性 UI设计完转化为py然后再补充算法代码用 Qt Designer 设计全新界面，生成 .UI文件，然后用pyuic转化. UI 改动后要重新用 pyuic5 生成 1pyuic5 -o...

CUDA 环境的两种来源

发表于2025-12-03|论文阅读

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

数据集获得sparse点云流程

发表于2025-12-03|论文阅读

数据集获得sparse点云流程参考文献官方教程Reconstruct sparse/dense model from known camera...

如何把一个深度学习代码从torch框架改成mindspore框架

发表于2025-12-03|论文阅读

如何把一个深度学习代码从torch框架改成mindspore框架最重要的如何创建数据集和dataloader 在 MindSpore 静态图模式（@ms_function 或默认图模式）中是不允许 del xxx。 MindSpore 不支持detach() 1234# torch版本cur_depth = cur_depth.detach()# mindspore版本cur_depth = ops.stop_gradient(cur_depth) MindSpore 中调用了 imgs.size(1)，但 MindSpore 的 Tensor 没有 size() 方法，应该用 shape 属性 1234# torch版本for nview_idx in range(imgs.size(1)):# mindspore版本for nview_idx in range(imgs.shape[1]): ops.split 不支持 output_num 而是使用 split_size_or_sections 1hidden_d, inp_d =...

Bark模型微调

发表于2025-12-03|论文阅读

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

无标题

发表于2025-12-03|论文阅读

三维视觉几何大整理