首页 | Big-Yellow-J

扩散模型生成加速策略主要包括加速框架、Cache策略和量化技术。加速框架通过优化计算后端（如flash_attn）、torch.compile编译、torch.channels_last内存访问优化及xFormers加速attention计算，结合CPU卸载和设备分配等显存...

Page Attention是优化KV-cache内存管理的方法，可解决预留浪费、内部及外部内存碎片化问题，通过将KV-cache划分为固定大小Block，利用Block Table维护逻辑与物理映射，有效管理非连续内存；同时处理Softmax计算中的数值溢出与全局信息问题...

Stable Diffusion WebUI基础使用指南：包含Linux环境安装流程，如克隆仓库、修改patches.py避免本地存储、配置webui.sh虚拟环境路径，运行脚本完成部署；详解模型安装方法，可下载dreamshaperXL等权重至指定目录；介绍插件安装，包括...

模型量化技术是将高精度（如FP16/FP32）模型权重转化为低比特（如INT8、INT4）的压缩方法，分量化感知训练（QAT）和后量化（PTQ）两大类，核心是数值精度校准与转化。GPTQ作为LLM后量化技术，通过“量化-补偿-量化-补偿”迭代流程，分块拆分权重矩阵，逐列量化...

本文详细解析QwenVL2.5模型的处理流程及微调方法，包括模板化输入（通过processor.apply_chat_template处理对话messages，含等标记模拟用户/assistant对话）、编码输入（图像处理采用smart_resize动态调整分辨率确保可被p...

通义千问多模态系列QwenVL迭代脉络清晰，初代采用ViT-bigG视觉编码器、单层交叉注意力模块配合可学习查询，将视觉特征压缩为256长度输入7B基座大模型。QwenVL2支持动态分辨率，引入2×2相邻token拼接、多模态旋转位置编码M-RoPE，新增时间维度对齐视频处...

DeepSeek v3采用混合专家模型，新增辅助损失平衡专家不均衡，结构创新包括低秩优化KV-cache（降维升维减少显存）和混合专家机制（Routed Expert直接传入隐藏层，Shared Expert经门控筛选），集成Multi-Token Prediction技术...

本文汇总各类LLM模型核心技术，涵盖GPT、DeepSeek、LLama系列及BERT等。GPT系列中，GPT v1首创无监督预训练与监督微调两阶段模式，采用Transformer decoder架构；GPT v2调整layer-norm位置至残差连接块内，优化模型训练稳定...

本文介绍RORem和ObjectClear两种图像擦除论文模型。RORem基于SDXL基座，通过视频帧前后变化物体构建mask数据集并结合开源数据，经人工筛选后训练判别器实现自动化数据筛选（判别器基于SDXL-Inpainting下采样和中间层，Lora微调，得分>0.9为...

本文介绍了SDE（随机微分方程）与ODE（常微分方程）在扩散模型中的应用差异，因调度器不同其实现方式有所区别，并重点解析了DDPM与DDIM两种扩散模型调度器。DDPM将加去噪视为马尔科夫链过程，需多步（通常1000步）生成图像导致速度较慢；DDIM则通过“跳步”优化，提升...

本文主要介绍基于Unet和Dit框架的基座扩散模型，重点对比SD1.5与SDXL的核心差异，包括CLIP编码器（SDXL采用双编码器拼接提升文本理解能力）、图像输出维度（SDXL默认1024x1024优于SD1.5的512x512）及技术优化策略。还涵盖Imagen的多阶段...

本文介绍常用目标检测算法，包括R-CNN、Fast RCNN、Faster RCNN及Yolo等。R-CNN通过区域候选框生成器（如Selective Search）产生候选框，经CNN特征提取和非极大值抑制剔除重叠框；Fast RCNN采用ROI pooling实现单图一...

图像消除是图像生成模型的重要应用领域，本文围绕Erase Diffusion、SmartEraser及OmniEraser等模型，阐述其核心技术与数据集构建方法。Erase Diffusion通过动态图像组合（输入与目标图像随解噪过程动态调整）、改进预测过程（计算“图像链”...

本文介绍生成模型开发常用的Python库Diffusers与Accelerate，助力开发者高效实践。Accelerate提供快速分布式训练方案，无需手动编写torch代码，支持梯度累计、混合精度训练等加速方法，可结合tensorboard/wandb记录训练过程，适配wa...