论文阅读_Transformer_Encoder_Decoder

发表于2025-12-03|更新于2025-12-03|论文阅读

|浏览量:

基本信息

项目	内容
论文标题	Attention is all you need
作者	很多共一
作者单位	Google Brain 团队（Vaswani et al.）
时间	2017
发表会议/期刊

方法概览

特点	文章性质
输入
输出
所属领域

EncoderLayer	“自己看自己”：用 Self-Attention 编码输入，输出上下文表示。
DecoderLayer	“边看自己，边看别人”：先自注意力（带掩码），再关注 Encoder 的输出。

创新点

完全抛弃 RNN 和 CNN，仅依靠 自注意力机制（Self-Attention） 实现序列建模。是 GPT、BERT、ChatGPT 等模型的基石。

文章作者: outbreak_sen

文章链接: http://outbreak-sen.github.io/2025/12/03/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB_Transformer_Encoder_Decoder/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 This is a 部落格 of outbreak_sen！

Muilt View Stereo

赞助

微信
支付宝

相关推荐

三维视觉几何大整理

李沐-AlexNet和卷积基础 ImageNet Classification With Deep Convolutional Neural Networks 俄罗斯人Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton 2012 在谷歌实习时候见到过这个人，汇报了这个工作。首个真正意义上的深度卷积神经网络摘要 ImageNet是一个很大的数据集超过1500万张在超过22,000个类别，取其中一部分1000个类在Imageet上top-1错误率37.5%，top-5错误率17.0%...

Bark模型微调

Bark模型微调 TTS模型/文本到语音（TTS）生成模型以下开放的、已支持训练的 TTS 模型：模型名是否支持训练特点架构类型 SpeechT5（HuggingFace） ✅ 支持 TTS、VC、ASR，多任务训练 Coqui-TTS（强烈推荐） ✅ 支持 Tacotron2/FastSpeech2/VITS ESPnet（工业级框架） ✅ 支持多种语音模型，配置稍复杂 YourTTS, VITS, GlowTTS ✅ Coqui-TTS/ESPnet 中均支持 VITS VAE + GAN + flow Bark GPT decoder-only Tacotron2 encoder-decoder + attention EnCodec 解码器 EnCodec 是由 Facebook FAIR 开源的神经压缩音频模型，可以高效地将音频压缩成离散 token，再解压回高质量语音。类似于 VQ-VAE（Vector Quantized Variational...

CUDA 环境的两种来源

🧩 一、CUDA 环境的两种来源 CUDA（Compute Unified Device Architecture）分为两部分：类型功能通常位置谁提供 CUDA Toolkit（开发套件）编译 CUDA 程序、包含 nvcc、头文件、静态库 /usr/local/cuda-* 你自己系统安装 CUDA Runtime（运行时库）运行 PyTorch / TensorFlow / cuDNN 等程序通常是 .so 动态库 PyTorch（或 conda 包）自动安装 👉 也就是说：系统 CUDA Toolkit：给开发者编译用（比如写 CUDA C++、编译自定义算子）。 conda/pip CUDA Runtime：给 PyTorch 运行用，不依赖系统 CUDA。 ⚙️ 二、本地 CUDA 与 conda CUDA 的区别对比项系统 CUDA Toolkit conda CUDA runtime 用途编译代码、开发运行 PyTorch、推理训练是否随 PyTorch 一起安装否是（通过...

FoundationStereo

FoundationStereo NVIDIA 2025 摘要（有本事别微调刷榜，我就是要做zero-shot）通过每个域的微调，深度立体匹配在基准数据集上取得了巨大进步。然而，实现强大的零镜头泛化（其他计算机视觉任务中基础模型的标志）对于立体匹配来说仍然具有挑战性。为此，我们首先构建了一个大规模（1M 立体对）合成训练数据集，具有较大的多样性和高照片级真实感，然后是一个自动自我管理管道来去除模棱两可的样本。然后，我们设计了许多网络架构组件来增强可扩展性，包括一个侧调功能主干，它适应了视觉基础模型中丰富的单目先验，以减轻 sim-to-real 的差距，以及用于有效成本量过滤的远程上下文推理。引言近半个世纪前第一个立体匹配算法出现，我们已经走过了漫长的道路。，最近的立体算法可以取得惊人的结果，几乎使最具挑战性的基准测试饱和。然而，对目标域的数据集进行微调仍然是获得竞争结果的首选方法。鉴于通过scaling...

阅读MASt3R-SLAM的代码，重点关注检索、回环部分通过MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric_retrieval_trainingfree生成特征进行检索，track成功进行全局因子图优化，track失败则回环检测，检测成功则再因子图优化，优化成功就可以继续，但是如果失败就直接continue，不添加到keyframe？MASt3R-SLAM 系统中的 RetrievalDatabase 并非传统的词袋模型，而是一个基于深度学习特征的高效图像检索系统复杂度相对于图像数量是准线性的（nearly linear），非常适合大规模场景 VGGT-LONG的论文和代码，重点关注里面回环检测相关的技术 VGGT-Long 的流程遵循：“Chunk it → Loop it → Align it” 的三阶段设计。回环匹配（Loop it）是在 chunk...