深入浅出了解生成模型-8:生成加速策略概述
扩散模型生成加速策略主要包括加速框架、Cache策略和量化技术。加速框架通过优化计算后端(如flash_attn)、torch.compile编译、torch.channels_last内存访问优化及xFormers加速attention计算,结合CPU卸载和设备分配等显存...
扩散模型生成加速策略主要包括加速框架、Cache策略和量化技术。加速框架通过优化计算后端(如flash_attn)、torch.compile编译、torch.channels_last内存访问优化及xFormers加速attention计算,结合CPU卸载和设备分配等显存...
Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题...
Stable Diffusion WebUI基础使用指南:包含Linux环境安装流程,如克隆仓库、修改patches.py避免本地存储、配置webui.sh虚拟环境路径,运行脚本完成部署;详解模型安装方法,可下载dreamshaperXL等权重至指定目录;介绍插件安装,包括...
模型量化技术是将高精度(如FP16/FP32)模型权重转化为低比特(如INT8、INT4)的压缩方法,分量化感知训练(QAT)和后量化(PTQ)两大类,核心是数值精度校准与转化。GPTQ作为LLM后量化技术,通过“量化-补偿-量化-补偿”迭代流程,分块拆分权重矩阵,逐列量化...
本文详细解析QwenVL2.5模型的处理流程及微调方法,包括模板化输入(通过processor.apply_chat_template处理对话messages,含等标记模拟用户/assistant对话)、编码输入(图像处理采用smart_resize动态调整分辨率确保可被p...
通义千问多模态系列QwenVL迭代脉络清晰,初代采用ViT-bigG视觉编码器、单层交叉注意力模块配合可学习查询,将视觉特征压缩为256长度输入7B基座大模型。QwenVL2支持动态分辨率,引入2×2相邻token拼接、多模态旋转位置编码M-RoPE,新增时间维度对齐视频处...
DeepSeek v3采用混合专家模型,新增辅助损失平衡专家不均衡,结构创新包括低秩优化KV-cache(降维升维减少显存)和混合专家机制(Routed Expert直接传入隐藏层,Shared Expert经门控筛选),集成Multi-Token Prediction技术...
本文汇总各类LLM模型核心技术,涵盖GPT、DeepSeek、LLama系列及BERT等。GPT系列中,GPT v1首创无监督预训练与监督微调两阶段模式,采用Transformer decoder架构;GPT v2调整layer-norm位置至残差连接块内,优化模型训练稳定...
本文介绍RORem和ObjectClear两种图像擦除论文模型。RORem基于SDXL基座,通过视频帧前后变化物体构建mask数据集并结合开源数据,经人工筛选后训练判别器实现自动化数据筛选(判别器基于SDXL-Inpainting下采样和中间层,Lora微调,得分>0.9为...
本文介绍了SDE(随机微分方程)与ODE(常微分方程)在扩散模型中的应用差异,因调度器不同其实现方式有所区别,并重点解析了DDPM与DDIM两种扩散模型调度器。DDPM将加去噪视为马尔科夫链过程,需多步(通常1000步)生成图像导致速度较慢;DDIM则通过“跳步”优化,提升...
本文主要介绍基于Unet和Dit框架的基座扩散模型,重点对比SD1.5与SDXL的核心差异,包括CLIP编码器(SDXL采用双编码器拼接提升文本理解能力)、图像输出维度(SDXL默认1024x1024优于SD1.5的512x512)及技术优化策略。还涵盖Imagen的多阶段...
本文介绍常用目标检测算法,包括R-CNN、Fast RCNN、Faster RCNN及Yolo等。R-CNN通过区域候选框生成器(如Selective Search)产生候选框,经CNN特征提取和非极大值抑制剔除重叠框;Fast RCNN采用ROI pooling实现单图一...
图像消除是图像生成模型的重要应用领域,本文围绕Erase Diffusion、SmartEraser及OmniEraser等模型,阐述其核心技术与数据集构建方法。Erase Diffusion通过动态图像组合(输入与目标图像随解噪过程动态调整)、改进预测过程(计算“图像链”...
本文介绍生成模型开发常用的Python库Diffusers与Accelerate,助力开发者高效实践。Accelerate提供快速分布式训练方案,无需手动编写torch代码,支持梯度累计、混合精度训练等加速方法,可结合tensorboard/wandb记录训练过程,适配wa...