This is a 部落格 of outbreak_sen

发表于2025-12-03|论文阅读

tmux 新建会话tmux new -s 第一个启动的 Tmux 窗口，编号是0，第二个窗口的编号是1，以此类推。这些窗口对应的会话，就是 0 号会话、1 号会话。使用编号区分会话，不太直观，更好的方法是为会话起名。 1tmux new -s <session-name> 上面命令新建一个指定名称的会话。分离会话Ctrl+b d 在 Tmux 窗口中，按下Ctrl+b d或者输入tmux detach命令，就会将当前会话与窗口分离。 1tmux detach 上面命令执行后，就会退出当前 Tmux 窗口，但是会话和里面的进程仍然在后台运行。查看会话tmux ls tmux ls命令可以查看当前所有的 Tmux 会话。 1tmux ls 接入会话tmux attach -t tmux attach命令用于重新接入某个已存在的会话。 12345# 使用会话编号tmux attach -t 0# 使用会话名称tmux attach -t <session-name> 杀死会话tmux kill-session -t tmux...

论文阅读_Bert

发表于2025-12-03|论文阅读

BERT 基本信息项目内容论文标题 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 作者作者单位 Google AI 时间 2018 发表会议/期刊论文别名 Bidirectional Encoder Representations from Transformers 方法概览特点文章性质输入输出所属领域创新点首次实现真正的双向上下文（Bidirectional Context）理解，大幅提升 NLP 任务性能。基于 Transformer Encoder（仅 Encoder），一个句子挖掉一部分预测挖掉的部分进行训练，这样训练出来的模型微调之后可用于下游任务，这种思想并没有延续，而是用于T5等网络（而GPT是只有Decoder，通过“从左到右”的自回归方式生成文本。）两种预训练任务： **Masked Language Model...

论文阅读_CLIP

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Learning Transfferable Visual Model From Natural language Supervision 作者 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever 作者单位 OpenAI 时间 2021 发表会议/期刊 International Conference on Machine Learning (ICML) 论文别名 Contrastive Language-Image...

论文阅读_ControlNet

发表于2025-12-03|论文阅读

ControlNet：Adding Conditional Control to Text-to-Image Diffusion Models ControlNet，这是一种端到端神经网络架构，用于学习大型预训练文本到图像扩散模型的条件控制（在我们的实现中为 Stable Diffusion）。ControlNet 通过锁定大型模型的参数，并创建其编码层的可训练副本，来保留大型模型的质量和功能。此架构将大型预训练模型视为学习各种条件控制的强大支柱。可训练副本和原始锁定模型与零卷积层连接，权重初始化为零，以便它们在训练期间逐渐增长。这种架构确保在训练开始时不会将有害的噪声添加到大型扩散模型的深层特征中，并保护可训练副本中的大规模预训练主干免受此类噪声的损害。问题：使用学习条件控制稳定扩散。背景：在开源社区已经形成以Stable Difffusion为核心，以ConrtolNet和LoRA为辅助模块的AI绘画工作流生态，controlnet让AI绘画的生成过程更加的可控步骤：使用ControlNet模型之后，Stable...

论文阅读_DETR

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 End-to-End Object Detection with Transformers 作者作者单位 Facebook AI 时间 2020 发表会议/期刊 ECCV20 论文别名 DEtection TRansformer 方法概览特点文章性质输入输出所属领域目标检测在 DETR 出现之前，主流目标检测器（如 Faster R-CNN、YOLO、SSD）存在以下问题：问题说明 Anchor 机制复杂需预设大量 anchor boxes，超参数多，设计繁琐 NMS 后处理非极大值抑制（NMS）不可导，无法端到端训练多阶段设计 RPN + RoI Pooling + 分类回归，流程复杂训练不稳定正负样本不平衡、anchor 匹配策略复杂创新点首次将 Transformer 架构成功应用于目标检测任务，摒弃了传统检测器中复杂的组件如...

论文阅读_DINO

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Emerging Properties in Self-Supervised Vision Transformers 作者作者单位 Meta AI 时间 2021 发表会议/期刊全称 Self-Distillation with No Labels 方法概览特点文章性质输入单张 RGB 图像输出所属领域分类，语义分割在 DINO 之前，主流的自监督方法有：对比学习（如 MoCo、SimCLR）：需要负样本，显存消耗大生成式模型（如 MAE）：重建像素，可能关注低级细节创新点通过“学生-教师”自蒸馏框架，无需任何标签，让 Vision Transformer（ViT）自动学习强大的视觉表征，并且在训练过程中涌现出语义分割、定位等能力。自蒸馏框架（Student-Teacher...

论文阅读_DROID-SLAM

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras 作者 Zachary Teed ，Jia Deng 通讯是ImageNet的一作。作者单位 Princeton University 时间发表会议/期刊方法概览特点文章性质输入图片序列（SLAM定义可传入激光IMU等各种机器人传感 **输出一个环境的几何/语义地图（Map）：点云，稀疏的点云ORBSLAM，稠密的点云LSDSLAM，高斯场景一条智能体的运动轨迹（Trajectory）图片位姿片位姿片位姿所属领域 SLAM（Simultaneous Localization and Mapping，创新点把Visual-SLAM问题使用深度神经网络直接端到端的实现了，并且取得了比以往传统SLAM方案更高的精度和鲁棒性。

论文阅读_DreamBooth

发表于2025-12-03|论文阅读

DreamBooth：Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 微调文生图扩散模型的方法，最大的特点是Subject-Driven，针对某一个特定的主体，生成这个主体可以是一个动物或者某个物体，包括人都是可以的。有特定小狗的一些照片，一般 3-5 张就能生成模型没有见过它做的事情的图片，比如说去到了这个希腊，去游泳，这都是模型没有见到过的照片，但是模型却能生成出来。并且这些生成的图片都有很高的保真度，能够保持这个物体的主要特征。 Probdef 输入：提示词和一个给定的很小量的 reference set，比如一个狗的三张图输出：模仿生成该 set 中所指定提示词的图片，比如狗在南极的图背景： diffusion models这些模型实现了从给定文本提示中高质量和多样化的图像合成。但是缺少能够通过一个给定的很小量的 reference set ，去模仿生成该 set 中所指定 subject...

论文阅读_GPT

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Improving Language Understanding by Generative Pre-training（GPT-1 作者作者单位 OpenAI 时间 2018 发表会议/期刊论文别名 Generative Pre-trained Transformer 模型年份论文标题参数量训练数据核心贡献 GPT-1 2018 Improving Language Understanding by Generative Pre-Training ~1.17 亿 BookCorpus 提出预训练 + 微调范式 GPT-2 2019 Language Models are Unsupervised Multitask Learners 1.5 亿 → 15 亿 WebText 提出零样本迁移（Zero-shot Transfer） GPT-3 2020 Language Models are Few-Shot Learners 1.75 亿 → 1750...

论文阅读_GoogleNet

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Going Deeper with Convolutions 作者 Szegedy et al. 作者单位 Google 团队时间 2014 发表会议/期刊方法概览特点文章性质输入单张 RGB 图像输出分类、分割所属领域视觉 Transformer 创新点提出 Inception 模块，在不显著增加参数的情况下大幅增加网络宽度和深度。22 层（按卷积/池化算），但参数仅 500 万（5M）无全连接层：使用 Global Average Pooling（GAP）替代 FC 层，支持任意输入尺寸，大幅减少参数。