论文阅读_High-Resolution Image Synthesis with Latent Diffusion Models
基于潜在扩散模型的高分辨率图像合成,Stable Diffusion的基础论文 前置知识: Diffusion Models(DDPM):扩散模型包括两个过程:前向过程(forward process)和反向过程(reverse process) 其中前向过程又称为扩散过程(diffusion process):对数据逐渐增加高斯噪音,直至数据变成随机噪音。 Diffusion Model(DDPM)训练过程就是训练UNet预测每一步的noise,从而逐步还原原始图像。原始图像空间的Diffusion Latent Diffusion Models(LDMs):diffusion直接在原图进行图片的去噪处理,而 latend diffusion 是图像经过VAE编码器压缩的图像,进行diffusion处理,然后再通过解码器,对压缩后的latent 编码还原为图像。 Stable diffusion:一个基于Latent Diffusion Models(LDMs)的text2image模型的实现。 latent...
论文阅读_I3D
基本信息 项目 内容 论文标题 Quo Vadis, action recognition? A new model and the kinetics dataset(Quo Vadis是一个老电影,”你要去哪?“) 作者 Joao Carreira,Andrew Zisserman 作者单位 Google Research 时间 2017 发表会议/期刊 全称 Inflation3D 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视频分类,视频理解,视频动作识别 在 I3D 之前,视频动作识别主要有前三种方式: 方法 问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征,RNN 建模时序,但时空分离,难以捕捉时空联合特征。 纯 3D CNN(如...
论文阅读_双流网络
双流网络 基本信息 项目 内容 论文标题 Two-Stream ConvNets for Action Recognition in Videos 作者 作者单位 牛津大学 时间 2014 发表会议/期刊 全称 Two-Stream Network 方法概览 特点 文章性质 输入 一个输入图像序列,一个输入光流图序列 输出 分类 所属领域 视频分类,视频理解,视频动作识别 在 双流网络之前,视频动作识别主要有前两种方式: 方法 问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征,RNN 建模时序,但时空分离,难以捕捉时空联合特征。 纯 3D CNN(如 C3D) 能同时建模空间和时间,但通常从零训练,参数多、训练难、性能有限。 双流网络 在时间和空间上分别用卷积神经网络,时间上是先抽取光流,然后用卷积神经网络来学习光流到最后动作的一个映射关系,最后再融合(late...
论文阅读_变分自编码器VQ-VAE
基本信息 项目 内容 论文标题 Neural Discrete Representation Learning 作者 Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu 作者单位 发表会议/期刊 2017 论文链接 别名 Vector Quantized-Variational Autoencoder 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 背景 标准 VAE 的局限: 潜在变量 z 是连续的(通常是高斯分布)。 这导致生成的样本(尤其是图像)往往比较模糊。 连续潜在空间可能难以捕捉数据中固有的离散结构(如物体类别、音素、单词)。 VQ-VAE 的解决方案: 放弃连续潜在变量:VQ-VAE 的编码器输出的不是分布参数,而是一个连续的潜在向量 z_e。 引入离散潜在空间:这个连续向量 z_e 会通过一个向量量化 (Vector...
工具笔记_基于PyQT的GUI制作基本操作和技巧
PyQT基本语法和操作 环境配置与GUI绘制思路 UI和算法代码看作前端和再 UI与代码分离 用 Qt Designer 设计界面并保存为 mywidget.ui,在代码里动态加载 .ui 文件,用 uic 模块加载 比如一个按钮叫 pushButton,就可以用 self.pushButton 访问。 不用生成 Python 代码,方便快速修改 UI 1234567from PyQt5 import uicfrom PyQt5.QtWidgets import QWidgetclass MyWidget(QWidget): def __init__(self): super().__init__() uic.loadUi('mywidget.ui', self) # 直接加载ui文件,控件自动成为self的属性 UI设计完转化为py然后再补充算法代码 用 Qt Designer 设计全新界面,生成 .UI文件,然后用pyuic转化. UI 改动后要重新用 pyuic5 生成 1pyuic5 -o...
CUDA 环境的两种来源
🧩 一、CUDA 环境的两种来源 CUDA(Compute Unified Device Architecture)分为两部分: 类型 功能 通常位置 谁提供 CUDA Toolkit(开发套件) 编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime(运行时库) 运行 PyTorch / TensorFlow / cuDNN 等程序 通常是 .so 动态库 PyTorch(或 conda 包)自动安装 👉 也就是说: 系统 CUDA Toolkit:给开发者编译用(比如写 CUDA C++、编译自定义算子)。 conda/pip CUDA Runtime:给 PyTorch 运行用,不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别 对比项 系统 CUDA Toolkit conda CUDA runtime 用途 编译代码、开发 运行 PyTorch、推理训练 是否随 PyTorch 一起安装 否 是(通过...
数据集获得sparse点云流程
数据集获得sparse点云流程 参考文献 官方教程Reconstruct sparse/dense model from known camera...
如何把一个深度学习代码从torch框架改成mindspore框架
如何把一个深度学习代码从torch框架改成mindspore框架 最重要的如何创建数据集和dataloader 在 MindSpore 静态图模式(@ms_function 或默认图模式)中是不允许 del xxx。 MindSpore 不支持detach() 1234# torch版本cur_depth = cur_depth.detach()# mindspore版本cur_depth = ops.stop_gradient(cur_depth) MindSpore 中调用了 imgs.size(1),但 MindSpore 的 Tensor 没有 size() 方法,应该用 shape 属性 1234# torch版本for nview_idx in range(imgs.size(1)):# mindspore版本for nview_idx in range(imgs.shape[1]): ops.split 不支持 output_num 而是使用 split_size_or_sections 1hidden_d, inp_d =...
Bark模型微调
Bark模型微调 TTS模型/文本到语音(TTS)生成模型 以下开放的、已支持训练的 TTS 模型: 模型名 是否支持训练 特点 架构类型 SpeechT5(HuggingFace) ✅ 支持 TTS、VC、ASR,多任务训练 Coqui-TTS(强烈推荐) ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet(工业级框架) ✅ 支持多种语音模型,配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的 神经压缩音频模型,可以高效地将音频压缩成离散 token,再解压回高质量语音。 类似于 VQ-VAE(Vector Quantized Variational...
无标题
三维视觉几何大整理
