This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

Openclaw配置和使用

发表于2025-12-03|工具笔记

Openclaw配置和使用安装 12345# 先安装nodejs到对应版本：npm install -g pnpm@latest-10nvm install 22nvm use 22nvm alias default 22 12345678910111213141516# 一键安装脚本，分为git的版本和npm的版本，git的版本会遇到一个允许列表的问题见issue32439但是我用了issue的方法无法解决，所以我换了npm的方法curl -fsSL https://openclaw.ai/install.sh | bash -s -- --install-method git curl -fsSL https://openclaw.ai/install.sh | bash -s -- --install-method npm# npm一键安装脚本npm install -g openclaw@latest# git安装git clone https://github.com/openclaw/openclaw.gitcd openclaw#...

DFS 与 BFS

发表于2025-12-03|算法

DFS 与 BFS 在二叉树上进行 DFS 遍历和 BFS 遍历的代码比较。 DFS 遍历使用递归： 1234567void dfs(TreeNode root) { if (root == null) { return; } dfs(root.left); dfs(root.right);} BFS 遍历使用队列数据结构： 12345678910111213void bfs(TreeNode root) { Queue<TreeNode> queue = new ArrayDeque<>(); queue.add(root); while (!queue.isEmpty()) { TreeNode node = queue.poll(); // Java 的 pop 写作 poll() if (node.left != null) { queue.add(node.left);...

GAN笔记

发表于2025-12-03|论文阅读

GAN笔记简介 GAN的思想来自零和博弈理论，由两个部分组成，一个是生成器Generator，随机接收一个随机噪声来生成图像。一个是鉴别器Discriminator，判断一张图像是不是“真实的”，输入是一张图像，输出是该图像为真实图像的概率，介于0-1之间，概率值越小认为生成图像不真实的可能性越大。生成器的目标是通过生成接近真实的图像来欺骗判别器，而判别器的目标是尽量辨别出生成器生成的假图像和真实图像的区别。自编码器（Auto-Encoder)以及变分自编码器（Variational Auto-Encoder)都是典型的生成器。输入通过Encoder编码成code，然后code通过Decoder重建原图，其中自编码器中的Decoder就是生成器，code可随机取值，产生不同的输出。自编码器是一种能够通过无监督学习，对输入数据进行特征提取，学习到数据的抽象表示，称为编码过程，编码结果往往维度远小于输入数据，自编码器可以用于降维和特征提取，变分自编码器（Variational auto-encoder，VAE）是一类重要的生成模型（generative...

Label软件调研和使用

发表于2025-12-03|论文阅读

Label软件调研和使用注释 2D 人体姿势的任务涉及在图像中识别和标记人体上的关键点。首先进行一个人体数据集格式的调研有几个人体数据集比如coco17点，coco-wholebody133点，Halpe136点，然后对应每种数据集格式有不同的model权重，和不同的config文件，即用什么估计，估计出来几个点，然后经过我的调研，17个点就足以描述项目了，腰部的旋转就是脖子和腰部的夹角角度嘛，所以我现在要找一个做coco数据集标注的软件，其实市面上大多数还是coco数据集的，然后只不过一开始我觉得骨架不一致给吓倒了。 PoseAnnotation（真难用） https://github.com/MiraPurkrabek/PoseAnnotator 该工具主要针对 COCO 样式的注释实现，因此需要其文件结构。每个数据集应有 3 个子文件夹 annotations、val2017 和可选的 train2017 但我们为我们的用例创建了一些自定义姿势格式。如果您使用 option --pose-format coco_with_thumbs...

Leetcode算法集合

发表于2025-12-03|算法

Leetcode算法集合深度优先遍历、递归、栈，它们三者的关系，我个人以为它们背后统一的逻辑都是「后进先出」。回溯法与深度优先搜索回溯法采用试错的思想，它尝试分步的去解决一个问题。在分步解决问题的过程中，当它通过尝试发现现有的分步答案不能得到有效的正确的解答的时候，它将取消上一步甚至是上几步的计算，再通过其它的可能的分步解答再次尝试寻找问题的答案。回溯法通常用最简单的递归方法来实现，在反复重复上述的步骤后可能出现两种情况：找到一个可能存在的正确的答案；在尝试了所有可能的分步方法后宣告该问题没有答案。深度优先搜索算法（英语：Depth-First-Search，DFS）是一种用于遍历或搜索树或图的算法。这个算法会尽可能深的搜索树的分支。当结点 v 的所在边都己被探寻过，搜索将回溯到发现结点 v...

MASt3R-SLAM

发表于2025-12-03|论文阅读

阅读MASt3R-SLAM的代码，重点关注检索、回环部分通过MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric_retrieval_trainingfree生成特征进行检索，track成功进行全局因子图优化，track失败则回环检测，检测成功则再因子图优化，优化成功就可以继续，但是如果失败就直接continue，不添加到keyframe？MASt3R-SLAM 系统中的 RetrievalDatabase 并非传统的词袋模型，而是一个基于深度学习特征的高效图像检索系统复杂度相对于图像数量是准线性的（nearly linear），非常适合大规模场景 VGGT-LONG的论文和代码，重点关注里面回环检测相关的技术 VGGT-Long 的流程遵循：“Chunk it → Loop it → Align it” 的三阶段设计。回环匹配（Loop it）是在 chunk...

MVS框架开源整理

发表于2025-12-03|论文阅读

MVS框架开源整理可视化程度比较好的meshlab，更适合OS X平台的MVE，以及能够配套使用的完整库OpenMVG和OpenMVS Incremental 方向的论文：要追溯重建思想的话就到Marr的奠基理论，以及分层重建思想了最早最著名的奠基工作，没记错的话是偶像男神Marc Pollefeys’ research page 自标定算法开始成熟后，摆脱人肉重建的曙光出现，全自动的创世机器有望完成，后续跟进了很多研究，可以看一下引用这篇文章的研究后面就是完全开源、稳定的Bundler(Modeling the World from Internet Photo Collections ，Prof. Noah Snavely)。Bundler即使到了现在依然有做baseline的精度和鲁棒性，作为最早开源的代码之一，对SfM的发展起到了至关重要的作用，后续的很多伟大工作无不受其影响；后续出现的诸如VisualSFM(Towards Linear-Time Incremental Structure from Motion, ChangChang Wu) , ...

基于3r的slam方法总结

发表于2025-12-03|论文阅读

基于3r的slam方法总结 vggt-long 特点值 foundation model vggt loop detecting 通过dino然后用一个 aggregating module进行场景识别主要方法滑窗，滑窗区域有重叠区域，滑窗帧直接做vggt，重叠帧是一个密集匹配，直接做SIM（3）拼接是否提取特征并匹配 none Hier-SLAM++ 特点值 foundation model dust3r loop detecting none 主要方法两帧输入到dust3r可以获得初始的pose和pointmap，然后他不做匹配，而是用之前3dgs的方法，在渲染过程中使用最小化渲染损失进行几何矫正优化SE3参数额外的特点用大语言模型+ 3D...

无图形安装matalb笔记

发表于2025-12-03|论文阅读

无图形安装matalb笔记 Linux MATLAB R2024a v24.1最新版！百度网盘链接：https://pan.baidu.com/s/17ERtLgm950phpjnMRaDugg?pwd=1kcw 提取码：1kcw 秘钥：21471-07182-41807-00726-32378-34241-61866-60308-44209-03650-51035-48216-24734-36781-57695-35731-64525-44540-57877-31100-06573-50736-60034-42697-39512-63953 Linux MATLAB R2023a update5 百度网盘链接：https://pan.baidu.com/s/1SXlkE7t7EYLEnmrw5j_J4g?pwd=le0n 提取码：le0n 安装步骤：https://mp.weixin.qq.com/s/9TjL87maMNsEfuHBJJA_Hw Linux MATLAB R2023b...