Big-Yellow-J

VAD核心任务是在连续音频中精准区分语音与非语音段。理解其工作原理需掌握采样率（16kHz黄金平衡）、位深（16bit标配）、分帧（帧长20-40ms、帧移10ms）、特征（257维STFT功率谱或80维Fbank）以及对数分贝压缩动态范围。所有VAD均依赖滞后机制（最小语...

Ray是支持以本地Python写法实现分布式/并行计算的开源框架，核心计算仍由PyTorch等执行，覆盖模型部署、服务器调度等场景。其架构包含五大核心组件：Head与Worker两类节点、两层分布式调度器、基于Apache Arrow/Plasma的内存分布式对象存储、GC...

模型微调多卡训练依赖分布式策略。数据并行中DDP采用独立运行机制，每个进程拥有独立优化器，通过all-reduce同步梯度，避免DP的主GPU瓶颈与模型冗余拷贝。张量并行按行或列拆分权重矩阵，列并行需all-reduce聚合完整输入梯度，行并行则通过all-gather汇总...

PyTorch计算图是有向无环图，节点代表操作，边代表数据流，动态图在每次前向传播时即时构建并默认释放，支持灵活调试。反向传播时框架沿图计算梯度并累加到叶子张量。静态图则提前构建完整计算图以优化执行。torch.compile引入三个核心组件：TorchDynamo通过捕获...

PyTorch训练推理场景性能瓶颈分为CPU、GPU计算、I/O、多卡通信、框架开销五类，对应不同判别特征：GPU利用率波动跳变对应CPU瓶颈，训练起步慢后续提速对应I/O瓶颈，NCCL AllReduce耗时占比超30%对应多卡通信瓶颈。宏观可通过bpytop、nvidi...

针对GRPO存在的token级重要性采样与序列级奖励不匹配、路由阶段不一致易导致专家训练崩溃问题，Qwen团队提出GSPO算法，取消token平均改为序列级重要性计算，在TRL中可通过GRPOConfig设置importance_sampling_level为sequenc...

传统残差连接通过跳跃连接缓解深度模型梯度消失与退化问题，但存在各层贡献权重一致、浅层信息随层数叠加逐渐被稀释的缺陷，过往门控、加权类改进效果有限。针对该痛点，Kimi提出注意力残差连接，对前序所有block输出计算softmax注意力权重做加权融合，分别在单block计算后...

基于vllm 0.17.1版本，详解KV缓存块管理器实现逻辑。默认block_size为16，单块可存储16个token，显存按设备显存固定比率预分配，block数量由可用显存、单块单层字节数、模型层数计算得到，每层预分配形状为[2,num_blocks,block_siz...

基于vllm 0.17.1，介绍其推理中generate过程及调度器运行。generate时，prompt经处理进入_add_request，编码并关联采样参数；后进入_run_engine，涉及模型输出。调度器含waiting与running队列，waiting队列中取出...

FireRED OCR基于Qwen3-vl微调，数据构建环节采用聚类去重保留长尾数据、多维度分类保证分布均衡、多工具联动清洗修复三类处理，训练分三阶段推进：先预训练强化目标检测、特定区域识别、页面转Markdown三类文档识别能力，再用高质量数据做监督微调，最后通过GRPO...

梳理强化学习DPO、PPO、GRPO三类优化算法常见的两类训练崩溃问题。熵坍缩源于动作概率与优势值协方差结构性恒正，训练初期策略熵快速趋近于0，模型失去探索性，效果陷入瓶颈，可通过DAPO调整GRPO的epsilon高低边界、动态温度调度仅对top20%高熵token计算策...

大语言模型训练分为预训练、监督微调（SFT）、人类反馈强化学习（RLHF）三个阶段，RLHF用于对齐人类偏好，核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调，通过对比优选、劣选回答的生成概率优化，无需独立奖励模型。PPO为策略梯度类算法，通过截...

Latent Consistency Model（LCM）通过将随机微分SDE转化为常微分ODE实现生成加速，仅需3-5步生成图像。Flow Matching算法则通过学习连续的确定性向量场（velocity field），构造从噪声到数据的最优概率路径加速生成。传统扩散模...

训练Qwen2.5VL-3B模型时出现Loss下降但Grad Norm先降后升的现象。模型采用AdamW优化器、cosine学习率warm up策略及交叉熵损失函数，通过tensorboard记录训练指标。Loss反映模型拟合效果，Grad Norm为所有参数梯度向量拼接后...

大模型推理优化除量化、多attention方案、cache策略外，可通过模型蒸馏、模型剪枝两类方案实现参数优化。模型蒸馏核心是让小体量学生模型学习预训练大模型的行为逻辑，主流方案包括叠加双损失的KD知识蒸馏、带温度参数的DKD解耦知识蒸馏、基于双损失约束的DMD分配匹配蒸馏...