工具笔记_tmux
tmux 新建会话tmux new -s 第一个启动的 Tmux 窗口,编号是0,第二个窗口的编号是1,以此类推。这些窗口对应的会话,就是 0 号会话、1 号会话。 使用编号区分会话,不太直观,更好的方法是为会话起名。 1tmux new -s <session-name> 上面命令新建一个指定名称的会话。 分离会话Ctrl+b d 在 Tmux 窗口中,按下Ctrl+b d或者输入tmux detach命令,就会将当前会话与窗口分离。 1tmux detach 上面命令执行后,就会退出当前 Tmux 窗口,但是会话和里面的进程仍然在后台运行。 查看会话tmux ls tmux ls命令可以查看当前所有的 Tmux 会话。 1tmux ls 接入会话tmux attach -t tmux attach命令用于重新接入某个已存在的会话。 12345# 使用会话编号tmux attach -t 0# 使用会话名称tmux attach -t <session-name> 杀死会话tmux kill-session -t tmux...
论文阅读_Bert
BERT 基本信息 项目 内容 论文标题 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 作者 作者单位 Google AI 时间 2018 发表会议/期刊 论文别名 Bidirectional Encoder Representations from Transformers 方法概览 特点 文章性质 输入 输出 所属领域 创新点 首次实现真正的双向上下文(Bidirectional Context)理解,大幅提升 NLP 任务性能。 基于 Transformer Encoder(仅 Encoder),一个句子挖掉一部分预测挖掉的部分进行训练,这样训练出来的模型微调之后可用于下游任务,这种思想并没有延续,而是用于T5等网络(而GPT是只有Decoder,通过“从左到右”的自回归方式生成文本。) 两种预训练任务: **Masked Language Model...
论文阅读_CLIP
基本信息 项目 内容 论文标题 Learning Transfferable Visual Model From Natural language Supervision 作者 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever 作者单位 OpenAI 时间 2021 发表会议/期刊 International Conference on Machine Learning (ICML) 论文别名 Contrastive Language-Image...
论文阅读_ControlNet
ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models ControlNet,这是一种端到端神经网络架构,用于学习大型预训练文本到图像扩散模型的条件控制(在我们的实现中为 Stable Diffusion)。ControlNet 通过锁定大型模型的参数,并创建其编码层的可训练副本,来保留大型模型的质量和功能。此架构将大型预训练模型视为学习各种条件控制的强大支柱。可训练副本和原始锁定模型与零卷积层连接,权重初始化为零,以便它们在训练期间逐渐增长。这种架构确保在训练开始时不会将有害的噪声添加到大型扩散模型的深层特征中,并保护可训练副本中的大规模预训练主干免受此类噪声的损害。 问题: 使用学习条件控制稳定扩散。 背景: 在开源社区已经形成以Stable Difffusion为核心,以ConrtolNet和LoRA为辅助模块的AI绘画工作流生态,controlnet让AI绘画的生成过程更加的可控 步骤: 使用ControlNet模型之后,Stable...
论文阅读_DETR
基本信息 项目 内容 论文标题 End-to-End Object Detection with Transformers 作者 作者单位 Facebook AI 时间 2020 发表会议/期刊 ECCV20 论文别名 DEtection TRansformer 方法概览 特点 文章性质 输入 输出 所属领域 目标检测 在 DETR 出现之前,主流目标检测器(如 Faster R-CNN、YOLO、SSD)存在以下问题: 问题 说明 Anchor 机制复杂 需预设大量 anchor boxes,超参数多,设计繁琐 NMS 后处理 非极大值抑制(NMS)不可导,无法端到端训练 多阶段设计 RPN + RoI Pooling + 分类回归,流程复杂 训练不稳定 正负样本不平衡、anchor 匹配策略复杂 创新点 首次将 Transformer 架构成功应用于目标检测任务,摒弃了传统检测器中复杂的组件如...
论文阅读_DINO
基本信息 项目 内容 论文标题 Emerging Properties in Self-Supervised Vision Transformers 作者 作者单位 Meta AI 时间 2021 发表会议/期刊 全称 Self-Distillation with No Labels 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 所属领域 分类,语义分割 在 DINO 之前,主流的自监督方法有: 对比学习(如 MoCo、SimCLR):需要负样本,显存消耗大 生成式模型(如 MAE):重建像素,可能关注低级细节 创新点 通过“学生-教师”自蒸馏框架,无需任何标签,让 Vision Transformer(ViT)自动学习强大的视觉表征,并且在训练过程中涌现出语义分割、定位等能力。 自蒸馏框架(Student-Teacher...
论文阅读_DROID-SLAM
基本信息 项目 内容 论文标题 DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras 作者 Zachary Teed ,Jia Deng 通讯是ImageNet的一作。 作者单位 Princeton University 时间 发表会议/期刊 方法概览 特点 文章性质 输入 图片序列(SLAM定义可传入激光IMU等各种机器人传感 **输出 一个环境的几何/语义地图(Map):点云,稀疏的点云ORBSLAM,稠密的点云LSDSLAM,高斯场景 一条智能体的运动轨迹(Trajectory)图片位姿 片位姿 片位姿 所属领域 SLAM(Simultaneous Localization and Mapping, 创新点 把Visual-SLAM问题使用深度神经网络直接端到端的实现了,并且取得了比以往传统SLAM方案更高的精度和鲁棒性。
论文阅读_DreamBooth
DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 微调文生图扩散模型的方法,最大的特点是Subject-Driven,针对某一个特定的主体,生成这个主体可以是一个动物或者某个物体,包括人都是可以的。有特定小狗的一些照片,一般 3-5 张就能生成模型没有见过它做的事情的图片,比如说去到了这个希腊,去游泳,这都是模型没有见到过的照片,但是模型却能生成出来。并且这些生成的图片都有很高的保真度,能够保持这个物体的主要特征。 Probdef 输入:提示词和一个给定的很小量的 reference set,比如一个狗的三张图 输出:模仿生成该 set 中所指定提示词的图片,比如狗在南极的图 背景: diffusion models这些模型实现了从给定文本提示中高质量和多样化的图像合成。但是缺少能够通过一个给定的很小量的 reference set ,去模仿生成该 set 中所指定 subject...
论文阅读_GPT
基本信息 项目 内容 论文标题 Improving Language Understanding by Generative Pre-training(GPT-1 作者 作者单位 OpenAI 时间 2018 发表会议/期刊 论文别名 Generative Pre-trained Transformer 模型 年份 论文标题 参数量 训练数据 核心贡献 GPT-1 2018 Improving Language Understanding by Generative Pre-Training ~1.17 亿 BookCorpus 提出 预训练 + 微调 范式 GPT-2 2019 Language Models are Unsupervised Multitask Learners 1.5 亿 → 15 亿 WebText 提出 零样本迁移(Zero-shot Transfer) GPT-3 2020 Language Models are Few-Shot Learners 1.75 亿 → 1750...
论文阅读_GoogleNet
基本信息 项目 内容 论文标题 Going Deeper with Convolutions 作者 Szegedy et al. 作者单位 Google 团队 时间 2014 发表会议/期刊 方法概览 特点 文章性质 输入 单张 RGB 图像 输出 分类、分割 所属领域 视觉 Transformer 创新点 提出 Inception 模块,在不显著增加参数的情况下大幅增加网络宽度和深度。22 层(按卷积/池化算),但参数仅 500 万(5M) 无全连接层:使用 Global Average Pooling(GAP) 替代 FC 层,支持任意输入尺寸,大幅减少参数。
