Kimi论文——Muon优化器原理/torch优化器
AdamW优化器作为主流优化器,是Adam的变种,通过一阶矩(梯度加权平均)和二阶矩(梯度平方加权平均)估计、偏置校正,以及在更新规则中加入权重衰减改进L2正则化。而新优化器Muon(MomentUm Orthogonalized by Newton-Schulz)则通过获...
AdamW优化器作为主流优化器,是Adam的变种,通过一阶矩(梯度加权平均)和二阶矩(梯度平方加权平均)估计、偏置校正,以及在更新规则中加入权重衰减改进L2正则化。而新优化器Muon(MomentUm Orthogonalized by Newton-Schulz)则通过获...
LLM生成分为Prefill与Decoding两个阶段,前者输入全量prompt输出KV Cache和首个生成token的logits,后者基于KV Cache和上一步生成token自回归逐token输出,适配大词表的主流生成策略包含多类。贪婪解码每步取概率最高token,...
DeepSpeed是微软开发的深度学习优化库,专为高性能训练和推理设计,适用于GPT、BERT等大规模深度学习模型,通过优化策略帮助高效利用硬件资源,实现快速训练、降低内存使用及提升推理速度。模型训练显存主要被模型状态(优化器状态、梯度、模型参数)和剩余状态(激活值、临时缓...
神经网络训练中,为提升泛化能力并避免梯度消失/爆炸,常采用归一化、Dropout、梯度裁剪等训练稳定性机制。归一化技术(BatchNorm、LayerNorm、GroupNorm、InstanceNorm)通过统一层输入分布加速收敛,其核心区别在于归一化维度:BatchNo...
长上下文处理中平方级运算与存储复杂度是大模型推理优化的关键挑战,解决方向包括Token Dropping、KVCache量化压缩、Prompt压缩及结构性稀疏压缩等,核心在于稀疏注意力(Sparse Attention)技术。稀疏注意力通过减少元素关联性计算,让每个元素仅与...
本文介绍了三种高分辨率图像处理办法。DocKylin通过图像梯度转化为黑白,去除水平/竖直方向冗余像素,实现高分辨率图像处理;同时采用聚类算法降低token维度,将token分为必要与非必要两类,通过计算余弦相似度将非必要token聚合到必要token中。AdaptVisi...
本文详细介绍常用Attention操作及KV-cache内存优化方法。涵盖多头注意力(Multi Head Attention)的QKV计算原理、softmax归一化作用,因果注意力(Casual Attention)的屏蔽机制,滑动窗口注意力(Sliding Window...
大语言模型微调主要分为全面微调和部分参数微调,其中部分参数微调包括Prompt-tuning和Parameter-efficient fine-tuning(PEFT)等方法。Prompt-tuning分为hard prompt和soft prompt,hard promp...
位置编码用于标记输入序列中单词或标记的位置,帮助Transformer模型理解相对位置与长距离依赖关系,通常与输入嵌入相加。主要类型包括:绝对位置编码(固定正弦余弦生成的编码,简单易实现但难以泛化至不同长度序列,适用于短文本、序列长度固定的任务)、相对位置编码(通过查询和键...
混合专家模型(MoE)通过将门控网络与多个FFN层结合,替代传统Transformer中的FFN层,实现输入数据的动态路由与处理。其核心包括稀疏MoE层和门控网络:门控网络通过线性层与Softmax生成概率分布,选择部分FFN(专家)处理输入(稀疏MoE),而稠密MoE则让...
本文详细介绍计算机视觉(CV)领域常用Backbone的原理与应用,涵盖基于卷积神经网络、Transformer及多模态三大类。基于卷积神经网络的Backbone包括Resnet系列与Unet系列:Resnet通过残差连接(skip connection)引入恒等映射,有效...
Word Embedding是将文本转化为计算机可理解的数字表示的技术。传统one-hot编码虽简单,但会丧失语义信息,无法体现如“喜欢”与“爱”的语义相似性。静态词向量预训练模型包括Word2vec和GloVe:Word2vec基于简化神经网络,分为CBOW与Skip-g...
学习率是梯度下降、SGD、小批量梯度下降、Adam、RMSprop等优化算法的关键参数,对模型训练速度与稳定性至关重要。其优化过程通过反向传播计算损失函数梯度,结合学习率更新参数,学习率过大会导致模型在最优解附近震荡甚至发散,过小则减慢训练速度或使其陷入局部最优。调整策略包...
不同精度训练包括单精度(FP32)、半精度(FP16/BF16)及混合精度训练。单精度以32位浮点数表示数据,精度高但显存占用大、训练速度慢,适用于小规模任务;半精度(FP16/BF16)显存占用低、速度快,但FP16易因数值问题(如溢出、下溢)导致稳定性差,适用于性能优先...
评价指标涵盖分类任务、机器翻译及模型训练中的损失函数等领域。分类任务常用指标包括准确率、精确率、召回率和F1分数:准确率直观易理解,但在类别不平衡时可能误导评估;精确率衡量预测正类中实际正类的比例,适用于避免假阳性;召回率反映模型对正类样本的识别能力,适用于避免假阴性;F1...