论文阅读_双流网络
双流网络 基本信息 项目 内容 论文标题 Two-Stream ConvNets for Action Recognition in Videos 作者 作者单位 牛津大学 时间 2014 发表会议/期刊 全称 Two-Stream Network 方法概览 特点 文章性质 输入 一个输入图像序列,一个输入光流图序列 输出 分类 所属领域 视频分类,视频理解,视频动作识别 在 双流网络之前,视频动作识别主要有前两种方式: 方法 问题 2D CNN + LSTM/RNN 2D 卷积只提取空间特征,RNN 建模时序,但时空分离,难以捕捉时空联合特征。 纯 3D CNN(如 C3D) 能同时建模空间和时间,但通常从零训练,参数多、训练难、性能有限。 双流网络 在时间和空间上分别用卷积神经网络,时间上是先抽取光流,然后用卷积神经网络来学习光流到最后动作的一个映射关系,最后再融合(late...
论文阅读_变分自编码器VQ-VAE
基本信息 项目 内容 论文标题 Neural Discrete Representation Learning 作者 Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu 作者单位 发表会议/期刊 2017 论文链接 别名 Vector Quantized-Variational Autoencoder 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 背景 标准 VAE 的局限: 潜在变量 z 是连续的(通常是高斯分布)。 这导致生成的样本(尤其是图像)往往比较模糊。 连续潜在空间可能难以捕捉数据中固有的离散结构(如物体类别、音素、单词)。 VQ-VAE 的解决方案: 放弃连续潜在变量:VQ-VAE 的编码器输出的不是分布参数,而是一个连续的潜在向量 z_e。 引入离散潜在空间:这个连续向量 z_e 会通过一个向量量化 (Vector...
CUDA 环境的两种来源
🧩 一、CUDA 环境的两种来源 CUDA(Compute Unified Device Architecture)分为两部分: 类型 功能 通常位置 谁提供 CUDA Toolkit(开发套件) 编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime(运行时库) 运行 PyTorch / TensorFlow / cuDNN 等程序 通常是 .so 动态库 PyTorch(或 conda 包)自动安装 👉 也就是说: 系统 CUDA Toolkit:给开发者编译用(比如写 CUDA C++、编译自定义算子)。 conda/pip CUDA Runtime:给 PyTorch 运行用,不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别 对比项 系统 CUDA Toolkit conda CUDA runtime 用途 编译代码、开发 运行 PyTorch、推理训练 是否随 PyTorch 一起安装 否 是(通过...
数据集获得sparse点云流程
数据集获得sparse点云流程 参考文献 官方教程Reconstruct sparse/dense model from known camera...
如何把一个深度学习代码从torch框架改成mindspore框架
如何把一个深度学习代码从torch框架改成mindspore框架 最重要的如何创建数据集和dataloader 在 MindSpore 静态图模式(@ms_function 或默认图模式)中是不允许 del xxx。 MindSpore 不支持detach() 1234# torch版本cur_depth = cur_depth.detach()# mindspore版本cur_depth = ops.stop_gradient(cur_depth) MindSpore 中调用了 imgs.size(1),但 MindSpore 的 Tensor 没有 size() 方法,应该用 shape 属性 1234# torch版本for nview_idx in range(imgs.size(1)):# mindspore版本for nview_idx in range(imgs.shape[1]): ops.split 不支持 output_num 而是使用 split_size_or_sections 1hidden_d, inp_d =...
Bark模型微调
Bark模型微调 TTS模型/文本到语音(TTS)生成模型 以下开放的、已支持训练的 TTS 模型: 模型名 是否支持训练 特点 架构类型 SpeechT5(HuggingFace) ✅ 支持 TTS、VC、ASR,多任务训练 Coqui-TTS(强烈推荐) ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet(工业级框架) ✅ 支持多种语音模型,配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的 神经压缩音频模型,可以高效地将音频压缩成离散 token,再解压回高质量语音。 类似于 VQ-VAE(Vector Quantized Variational...
Openclaw配置和使用
Openclaw配置和使用 安装 12345# 先安装nodejs到对应版本:npm install -g pnpm@latest-10nvm install 22nvm use 22nvm alias default 22 12345678910111213141516# 一键安装脚本,分为git的版本和npm的版本,git的版本会遇到一个允许列表的问题见issue32439但是我用了issue的方法无法解决,所以我换了npm的方法curl -fsSL https://openclaw.ai/install.sh | bash -s -- --install-method git curl -fsSL https://openclaw.ai/install.sh | bash -s -- --install-method npm# npm一键安装脚本npm install -g openclaw@latest# git安装git clone https://github.com/openclaw/openclaw.gitcd openclaw#...
DFS 与 BFS
DFS 与 BFS 在二叉树上进行 DFS 遍历和 BFS 遍历的代码比较。 DFS 遍历使用 递归: 1234567void dfs(TreeNode root) { if (root == null) { return; } dfs(root.left); dfs(root.right);} BFS 遍历使用队列数据结构: 12345678910111213void bfs(TreeNode root) { Queue<TreeNode> queue = new ArrayDeque<>(); queue.add(root); while (!queue.isEmpty()) { TreeNode node = queue.poll(); // Java 的 pop 写作 poll() if (node.left != null) { queue.add(node.left);...
GAN笔记
GAN笔记 简介 GAN的思想来自零和博弈理论,由两个部分组成,一个是生成器Generator,随机接收一个随机噪声来生成图像。一个是鉴别器Discriminator,判断一张图像是不是“真实的”,输入是一张图像,输出是该图像为真实图像的概率,介于0-1之间,概率值越小认为生成图像不真实的可能性越大。生成器的目标是通过生成接近真实的图像来欺骗判别器,而判别器的目标是尽量辨别出生成器生成的假图像和真实图像的区别。 自编码器(Auto-Encoder)以及变分自编码器(Variational Auto-Encoder)都是典型的生成器。输入通过Encoder编码成code,然后code通过Decoder重建原图,其中自编码器中的Decoder就是生成器,code可随机取值,产生不同的输出。 自编码器是一种能够通过无监督学习,对输入数据进行特征提取,学习到数据的抽象表示,称为编码过程,编码结果往往维度远小于输入数据,自编码器可以用于降维和特征提取, 变分自编码器(Variational auto-encoder,VAE)是一类重要的生成模型(generative...
Label软件调研和使用
Label软件调研和使用 注释 2D 人体姿势的任务涉及在图像中识别和标记人体上的关键点。 首先进行一个人体数据集格式的调研 有几个人体数据集比如coco17点,coco-wholebody133点,Halpe136点,然后对应每种数据集格式有不同的model权重,和不同的config文件,即用什么估计,估计出来几个点,然后经过我的调研,17个点就足以描述项目了,腰部的旋转就是脖子和腰部的夹角角度嘛,所以我现在要找一个做coco数据集标注的软件,其实市面上大多数还是coco数据集的,然后只不过一开始我觉得骨架不一致给吓倒了。 PoseAnnotation(真难用) https://github.com/MiraPurkrabek/PoseAnnotator 该工具主要针对 COCO 样式的注释实现,因此需要其文件结构。每个数据集应有 3 个子文件夹 annotations、val2017 和可选的 train2017 但我们为我们的用例创建了一些自定义姿势格式。如果您使用 option --pose-format coco_with_thumbs...
