This is a 部落格 of outbreak_sen

发表于2025-12-03|工具笔记

tmux 新建会话tmux new -s 第一个启动的 Tmux 窗口，编号是0，第二个窗口的编号是1，以此类推。这些窗口对应的会话，就是 0 号会话、1 号会话。使用编号区分会话，不太直观，更好的方法是为会话起名。 1tmux new -s <session-name> 上面命令新建一个指定名称的会话。分离会话Ctrl+b d 在 Tmux 窗口中，按下Ctrl+b d或者输入tmux detach命令，就会将当前会话与窗口分离。 1tmux detach 上面命令执行后，就会退出当前 Tmux 窗口，但是会话和里面的进程仍然在后台运行。查看会话tmux ls tmux ls命令可以查看当前所有的 Tmux 会话。 1tmux ls 接入会话tmux attach -t tmux attach命令用于重新接入某个已存在的会话。 12345# 使用会话编号tmux attach -t 0# 使用会话名称tmux attach -t <session-name> 杀死会话tmux kill-session -t tmux...

工具笔记_基于PyQT的GUI制作基本操作和技巧

发表于2025-12-03|工具笔记

PyQT基本语法和操作环境配置与GUI绘制思路 UI和算法代码看作前端和后端 UI与代码分离用 Qt Designer 设计界面并保存为 mywidget.ui,在代码里动态加载 .ui 文件，用 uic 模块加载比如一个按钮叫 pushButton，就可以用 self.pushButton 访问。不用生成 Python 代码，方便快速修改 UI 1234567from PyQt5 import uicfrom PyQt5.QtWidgets import QWidgetclass MyWidget(QWidget): def __init__(self): super().__init__() uic.loadUi('mywidget.ui', self) # 直接加载ui文件，控件自动成为self的属性 UI设计完转化为py然后再补充算法代码用 Qt Designer 设计全新界面，生成 .UI文件，然后用pyuic转化. UI 改动后要重新用 pyuic5 生成 1pyuic5 -o...

论文阅读_Bert

发表于2025-12-03|论文阅读

BERT 基本信息项目内容论文标题 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 作者作者单位 Google AI 时间 2018 发表会议/期刊论文别名 Bidirectional Encoder Representations from Transformers 方法概览特点文章性质输入输出所属领域创新点首次实现真正的双向上下文（Bidirectional Context）理解，大幅提升 NLP 任务性能。基于 Transformer Encoder（仅 Encoder），一个句子挖掉一部分预测挖掉的部分进行训练，这样训练出来的模型微调之后可用于下游任务，这种思想并没有延续，而是用于T5等网络（而GPT是只有Decoder，通过“从左到右”的自回归方式生成文本。）两种预训练任务： **Masked Language Model...

论文阅读_CLIP

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Learning Transfferable Visual Model From Natural language Supervision 作者 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever 作者单位 OpenAI 时间 2021 发表会议/期刊 International Conference on Machine Learning (ICML) 论文别名 Contrastive Language-Image...

论文阅读_ControlNet

发表于2025-12-03|论文阅读

ControlNet：Adding Conditional Control to Text-to-Image Diffusion Models ControlNet，这是一种端到端神经网络架构，用于学习大型预训练文本到图像扩散模型的条件控制（在我们的实现中为 Stable Diffusion）。ControlNet 通过锁定大型模型的参数，并创建其编码层的可训练副本，来保留大型模型的质量和功能。此架构将大型预训练模型视为学习各种条件控制的强大支柱。可训练副本和原始锁定模型与零卷积层连接，权重初始化为零，以便它们在训练期间逐渐增长。这种架构确保在训练开始时不会将有害的噪声添加到大型扩散模型的深层特征中，并保护可训练副本中的大规模预训练主干免受此类噪声的损害。问题：使用学习条件控制稳定扩散。背景：在开源社区已经形成以Stable Difffusion为核心，以ConrtolNet和LoRA为辅助模块的AI绘画工作流生态，controlnet让AI绘画的生成过程更加的可控步骤：使用ControlNet模型之后，Stable...

论文阅读_CroCo

发表于2025-12-03|论文阅读

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 基本信息项目内容论文标题 CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion 作者 Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Bregier, Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela Csurka, Jerome Revaud 作者单位 NAVER LABS...

论文阅读_CroCo v2

发表于2025-12-03|论文阅读

CroCo v2 相比第一篇工作的核心进步点 CroCo v2 作为 CroCo 系列的第二篇工作，针对第一篇的核心局限（合成数据依赖、泛化性不足、模型能力有限）进行了全方位升级，最终实现从 “室内 3D 专用模型” 到 “通用几何任务 SOTA 模型” 的跨越，进步点可归纳为以下 6 个关键维度： 1. 数据层面：从 “合成单一” 到 “真实大规模” 第一篇局限：仅依赖 Habitat 模拟器生成的 180 万对合成室内图像对，场景单一、缺乏真实世界噪声（光照、遮挡、纹理差异），导致泛化性差。 v2 改进：大规模收集530 万对真实世界图像对，覆盖室内（ARKitScenes、IndoorVL）、户外街道（3DStreetView）、地标（MegaDepth）等多场景，数据多样性远超第一篇。提出 “重叠度控制 + 贪心选对” 策略：通过 3D 网格、LiDAR、SfM 重建计算图像对的共视率（IoU），筛选共视率≈0.5 的优质对（避免任务过难 / 过易），同时保证数据多样性。效果：模型鲁棒性显著提升，在真实场景...

论文阅读_DETR

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 End-to-End Object Detection with Transformers 作者作者单位 Facebook AI 时间 2020 发表会议/期刊 ECCV20 论文别名 DEtection TRansformer 方法概览特点文章性质输入输出所属领域目标检测在 DETR 出现之前，主流目标检测器（如 Faster R-CNN、YOLO、SSD）存在以下问题：问题说明 Anchor 机制复杂需预设大量 anchor boxes，超参数多，设计繁琐 NMS 后处理非极大值抑制（NMS）不可导，无法端到端训练多阶段设计 RPN + RoI Pooling + 分类回归，流程复杂训练不稳定正负样本不平衡、anchor 匹配策略复杂创新点首次将 Transformer 架构成功应用于目标检测任务，摒弃了传统检测器中复杂的组件如...

论文阅读_DINO

发表于2025-12-03|论文阅读

基本信息项目内容论文标题 Emerging Properties in Self-Supervised Vision Transformers 作者作者单位 Meta AI 时间 2021 发表会议/期刊全称 Self-Distillation with No Labels 方法概览特点文章性质输入单张 RGB 图像输出所属领域分类，语义分割在 DINO 之前，主流的自监督方法有：对比学习（如 MoCo、SimCLR）：需要负样本，显存消耗大生成式模型（如 MAE）：重建像素，可能关注低级细节创新点通过“学生-教师”自蒸馏框架，无需任何标签，让 Vision Transformer（ViT）自动学习强大的视觉表征，并且在训练过程中涌现出语义分割、定位等能力。自蒸馏框架（Student-Teacher...

论文阅读_DPT

发表于2025-12-03|论文阅读

DPT: Vision Transformers for Dense Prediction 基本信息项目内容论文标题 Vision Transformers for Dense Prediction 作者 Rene Ranftl, Alexey Bochkovskiy, Vladlen Koltun 作者单位 Intel Labs 时间 2021 发表会议/期刊 ICCV 2021 (arXiv preprint 2020) 方法概览特点文章性质输入单张RGB图像输出密集预测图（如深度图、语义分割图）所属领域密集预测、深度估计、语义分割摘要精简本文提出了密集预测Transformer（DPT），一种利用Vision...