2025

Kimi论文——Muon优化器原理/torch优化器

AdamW优化器作为主流优化器,是Adam的变种,通过一阶矩(梯度加权平均)和二阶矩(梯度平方加权平均)估计、偏置校正,以及在更新规则中加入权重衰减改进L2正则化。而新优化器Muon(MomentUm Orthogonalized by Newton-Schulz)则通过获...

2025-03-04paper

DeepSpeed基本原理

DeepSpeed是微软开发的深度学习优化库,专为高性能训练和推理设计,适用于GPT、BERT等大规模深度学习模型,通过优化策略帮助高效利用硬件资源,实现快速训练、降低内存使用及提升推理速度。模型训练显存主要被模型状态(优化器状态、梯度、模型参数)和剩余状态(激活值、临时缓...

2025-02-24DeepSpeed框架

Docunmen AI 中图像高分辨率处理思路汇总

本文介绍了三种高分辨率图像处理办法。DocKylin通过图像梯度转化为黑白,去除水平/竖直方向冗余像素,实现高分辨率图像处理;同时采用聚类算法降低token维度,将token分为必要与非必要两类,通过计算余弦相似度将非必要token聚合到必要token中。AdaptVisi...

2025-02-19paper

LLM中常用的位置编码原理及其代码

位置编码用于标记输入序列中单词或标记的位置,帮助Transformer模型理解相对位置与长距离依赖关系,通常与输入嵌入相加。主要类型包括:绝对位置编码(固定正弦余弦生成的编码,简单易实现但难以泛化至不同长度序列,适用于短文本、序列长度固定的任务)、相对位置编码(通过查询和键...

2025-02-03深度学习基础理论位置编码rope

深度学习中各类学习率优化方法(AdaGrad/RMSprop/Adam/Warm-UP)原理及其代码

学习率是梯度下降、SGD、小批量梯度下降、Adam、RMSprop等优化算法的关键参数,对模型训练速度与稳定性至关重要。其优化过程通过反向传播计算损失函数梯度,结合学习率更新参数,学习率过大会导致模型在最优解附近震荡甚至发散,过小则减慢训练速度或使其陷入局部最优。调整策略包...

2025-01-04深度学习基础理论学习率优化adamwarm-up

深度学习基础理论————常见评价指标以及Loss Function

评价指标涵盖分类任务、机器翻译及模型训练中的损失函数等领域。分类任务常用指标包括准确率、精确率、召回率和F1分数:准确率直观易理解,但在类别不平衡时可能误导评估;精确率衡量预测正类中实际正类的比例,适用于避免假阳性;召回率反映模型对正类样本的识别能力,适用于避免假阴性;F1...

2025-01-01深度学习基础理论