Claude Code安装使用及Agent相关架构问题分析
在Windows上通过WSL安装Claude Code是推荐方式,支持桌面端和终端安装,需配置环境变量并处理VPN节点或全局代理以解决安装报错。Skills分为项目目录和根目录,可自动触发(基于description字段)或手动触发(/命令联想),安装他人Skills可通过...
在Windows上通过WSL安装Claude Code是推荐方式,支持桌面端和终端安装,需配置环境变量并处理VPN节点或全局代理以解决安装报错。Skills分为项目目录和根目录,可自动触发(基于description字段)或手动触发(/命令联想),安装他人Skills可通过...
模型微调多卡训练依赖分布式策略。数据并行中DDP采用独立运行机制,每个进程拥有独立优化器,通过all-reduce同步梯度,避免DP的主GPU瓶颈与模型冗余拷贝。张量并行按行或列拆分权重矩阵,列并行需all-reduce聚合完整输入梯度,行并行则通过all-gather汇总...
PyTorch计算图是有向无环图,节点代表操作,边代表数据流,动态图在每次前向传播时即时构建并默认释放,支持灵活调试。反向传播时框架沿图计算梯度并累加到叶子张量。静态图则提前构建完整计算图以优化执行。torch.compile引入三个核心组件:TorchDynamo通过捕获...
PyTorch训练推理场景性能瓶颈分为CPU、GPU计算、I/O、多卡通信、框架开销五类,对应不同判别特征:GPU利用率波动跳变对应CPU瓶颈,训练起步慢后续提速对应I/O瓶颈,NCCL AllReduce耗时占比超30%对应多卡通信瓶颈。宏观可通过bpytop、nvidi...
针对GRPO存在的token级重要性采样与序列级奖励不匹配、路由阶段不一致易导致专家训练崩溃问题,Qwen团队提出GSPO算法,取消token平均改为序列级重要性计算,在TRL中可通过GRPOConfig设置importance_sampling_level为sequenc...
传统残差连接通过跳跃连接缓解深度模型梯度消失与退化问题,但存在各层贡献权重一致、浅层信息随层数叠加逐渐被稀释的缺陷,过往门控、加权类改进效果有限。针对该痛点,Kimi提出注意力残差连接,对前序所有block输出计算softmax注意力权重做加权融合,分别在单block计算后...
基于vllm 0.17.1版本,详解KV缓存块管理器实现逻辑。默认block_size为16,单块可存储16个token,显存按设备显存固定比率预分配,block数量由可用显存、单块单层字节数、模型层数计算得到,每层预分配形状为[2,num_blocks,block_siz...
基于vllm 0.17.1,介绍其推理中generate过程及调度器运行。generate时,prompt经处理进入_add_request,编码并关联采样参数;后进入_run_engine,涉及模型输出。调度器含waiting与running队列,waiting队列中取出...
FireRED OCR基于Qwen3-vl微调,数据构建环节采用聚类去重保留长尾数据、多维度分类保证分布均衡、多工具联动清洗修复三类处理,训练分三阶段推进:先预训练强化目标检测、特定区域识别、页面转Markdown三类文档识别能力,再用高质量数据做监督微调,最后通过GRPO...
梳理强化学习DPO、PPO、GRPO三类优化算法常见的两类训练崩溃问题。熵坍缩源于动作概率与优势值协方差结构性恒正,训练初期策略熵快速趋近于0,模型失去探索性,效果陷入瓶颈,可通过DAPO调整GRPO的epsilon高低边界、动态温度调度仅对top20%高熵token计算策...
大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,无需独立奖励模型。PPO为策略梯度类算法,通过截...
Latent Consistency Model(LCM)通过将随机微分SDE转化为常微分ODE实现生成加速,仅需3-5步生成图像。Flow Matching算法则通过学习连续的确定性向量场(velocity field),构造从噪声到数据的最优概率路径加速生成。传统扩散模...
训练Qwen2.5VL-3B模型时出现Loss下降但Grad Norm先降后升的现象。模型采用AdamW优化器、cosine学习率warm up策略及交叉熵损失函数,通过tensorboard记录训练指标。Loss反映模型拟合效果,Grad Norm为所有参数梯度向量拼接后...
大模型推理优化除量化、多attention方案、cache策略外,可通过模型蒸馏、模型剪枝两类方案实现参数优化。模型蒸馏核心是让小体量学生模型学习预训练大模型的行为逻辑,主流方案包括叠加双损失的KD知识蒸馏、带温度参数的DKD解耦知识蒸馏、基于双损失约束的DMD分配匹配蒸馏...
Ai-toolkit框架用于扩散模型微调,需在autodl服务器(VGPU-32G、CUDA 13.0)安装,配置hf token后上传数据集(图像为.jpg/.jpeg/.png,文本为txt且一一对应,路径xxx/ai-toolkit/datasets)。训练界面参数建...