Big-Yellow-J

Big-Yellow-J https://www.big-yellow-j.top Big-Yellow-J的个人博客 zh-CN Thu, 01 May 2025 06:30:46 +0000 Thu, 01 May 2025 06:30:46 +0000 Jekyll v3.10.0 CV中常用Backbone-2：ConvNeXt模型详解 https://www.big-yellow-j.top/posts/2025/04/30/ConvNeXt.html 之前介绍了CV常用Backbon：CV中常用Backbone-1：Resnet/Unet/Vit系列/多模态系列等)以及代码这里介绍新的一个Backbone：ConvNeXt，主要来自两篇比较老的来自Meta论文：1、《AConvNe... Wed, 30 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/30/ConvNeXt.html Qwen多模态系列论文 https://www.big-yellow-j.top/posts/2025/04/28/QwenVL.html 本文主要介绍Qwen-vl系列模型包括：Qwen2-vl、Qwen2.5-vlQwen2-vlhttp://arxiv.org/abs/2409.12191模型结构：Qwen2-vl主要的改进点在于：1、使用动态分辨率（也就是说输入图... Mon, 28 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/28/QwenVL.html 强化学习框架：OpenRLHF源码解读，模型训练-2 https://www.big-yellow-j.top/posts/2025/04/27/OpenRLHF-3.html 前文已经介绍了：强化学习框架：OpenRLHF源码解读，模型处理模块解读本文主要介绍强化学习框架：OpenRLHF源码解读，模型训练。train.sh模型训练脚本：🔗脚本中主要涉及到参数：1、模型脚本：openrlhf.cli.tra... Sun, 27 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/27/OpenRLHF-3.html 强化学习框架：OpenRLHF源码解读，模型训练-1 https://www.big-yellow-j.top/posts/2025/04/24/OpenRLHF-2.html 前文已经介绍了：强化学习框架：OpenRLHF源码解读，模型处理模块解读本文主要介绍强化学习框架：OpenRLHF源码解读，模型训练。因为在OpenRLHF中整个模型训练过程代码比较多因此分成多次进行解读，此部分主要介绍一些训练前的初... Thu, 24 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/24/OpenRLHF-2.html 强化学习框架：OpenRLHF源码解读，模型处理 https://www.big-yellow-j.top/posts/2025/04/22/OpenRLHF-1.html 本文主要介绍强化学习框架：OpenRLHF源码解读，模型处理models框架设计了解一下OpenRLHF的模型框架设计范式：From:https://arxiv.org/pdf/2405.11143可以知道一个大概的流程：输入Porm... Tue, 22 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/22/OpenRLHF-1.html 深度学习分布式训练-2（模型并行/数据并行/流水线并行/张量并行） https://www.big-yellow-j.top/posts/2025/04/21/DistributeTraining-2.html 前面Blog（https://www.big-yellow-j.top/posts/2025/01/03/DistributeTraining.html）介绍了4种并行训练方式（模型并行/数据并行/流水线并行/张量并行），本文再去补充... Mon, 21 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/21/DistributeTraining-2.html 多视觉编码器协同与高低分辨率特征融合技术综述 https://www.big-yellow-j.top/posts/2025/04/19/MultiVisEncoding.html 本文主要介绍（论文发表时间：24.03-25.01）在多模态中使用多个视觉编码器如何进行特征融合操作（之所以用多视觉编码器，主要用途在于：有些视觉编码器可能只能提取到部分信息，就想通过另外一个编码器去捕捉之前编码器所没有捕捉得到的信息... Sat, 19 Apr 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/04/19/MultiVisEncoding.html LLM中的RLHF优化方法：GRPO、DPO与PPO解析 https://www.big-yellow-j.top/posts/2025/03/23/DPO-PPO.html 在之前blog中简单介绍了一下DeepSeek-R1可以不使用任何监督数据让模型拥有推理能力，其使用的GRPO技术这里再次具体理解一下他的具体原理，以及代码实践操作。对于GRPO参考论文（DeepSeek）：https://arxiv... Sun, 23 Mar 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/03/23/DPO-PPO.html Python进阶知识：多进程/多线程/装饰器 https://www.big-yellow-j.top/posts/2025/03/22/PythonThreading.html 本文写作于2025.3.20，恰好作者正好在外面实习，于此同时在实际工作中遇到这些知识点，因此就进行一个简短汇总方便后续回顾，可以直接看第三节1、简短理解一下什么是多进程/多线程/装饰器和一些基本概念多进程：指在同一个程序中同时运行多... Sat, 22 Mar 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/03/22/PythonThreading.html 数据蒸馏（Data Distillation）操作原理 https://www.big-yellow-j.top/posts/2025/03/10/Data-Distillation.html 主要介绍数据蒸馏操作，并且介绍CVPR-2025上海交大满分论文：DatasetDistillationwithNeuralCharacteristicFunction:AMinmaxPerspective。本文主要是借鉴论文1中的整... Mon, 10 Mar 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/03/10/Data-Distillation.html Kimi论文——Muon优化器原理/torch优化器 https://www.big-yellow-j.top/posts/2025/03/04/Muon.html 众所周知，目前主流应用的优化器是AdamW，不过一个新的优化器Muon（仅仅发布在Github上）似乎比AdamW优化器能够实现更加优异的效果，于此同时Kimi也出了一篇新的论文就是使用Muon优化器，有必要了解一些这个优化器以及测试... Tue, 04 Mar 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/03/04/Muon.html CV-MultiModal特征融合技术汇总 https://www.big-yellow-j.top/posts/2025/02/28/MultiModal.html 视觉多模态模型在结构上比较统一，一个视觉编码器（较多使用的是Vit/Resnet等）对图像信息进行处理，然后将其和文本信息一起结合然后输入到LLM模型中得到最后的结果，因此在此过程中一个最大的挑战就是：如果将不同模态信息进行结合（当然... Fri, 28 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/28/MultiModal.html LLM 生成策略全解析：从 Beam Search 到 Top-p 采样 https://www.big-yellow-j.top/posts/2025/02/27/LLM-OUT.html 我们都知道在使用dl模型（比如图像分类）最后的结果都是一个概率值（比如100种类别，输出就是每种类别的概率），常见的作法就是直接取概率最大的作为最终预测结果，但是LLM里面也用这种方式合理吗（毕竟文本也需要考虑整体的不单单就是让下一个... Thu, 27 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/27/LLM-OUT.html 深入浅出 DeepSpeed：深度学习高效训练框架解析 https://www.big-yellow-j.top/posts/2025/02/24/deepspeed.html DeepSpeed原理DeepSpeed是由微软开发的一种深度学习优化库，专为高性能训练和推理而设计，尤其适用于大规模深度学习模型（如GPT系列、BERT等）。它通过一系列技术和优化策略，帮助研究者和开发者高效利用硬件资源，实现快速训... Mon, 24 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/24/deepspeed.html 从梯度消失到模型过拟合：归一化、Dropout 和梯度裁剪的深度解析 https://www.big-yellow-j.top/posts/2025/02/23/dl-norm.html 为了避免提高模型的泛化能力以及训练过程中避免梯度消失/梯度爆炸现象发生，我们通常会在神经网络中引入一系列“训练稳定性机制”。其中，归一化（Normalization）技术、Dropout正则化和梯度裁剪（GradientClippin... Sun, 23 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/23/dl-norm.html Kimi/DeepSeek最新论文MoBA与NSA阅读 https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文：NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention以及Kimi最新论文MOBA:MIXTUREOFBLOCKAT... Fri, 21 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html Docunmen AI 中图像高分辨率处理思路汇总 https://www.big-yellow-j.top/posts/2025/02/19/DocAI-HR.html 1、冗余内容处理办法DocKylin直接对横平竖直去除冗余的像素（比如文本中大量的空白，直接通过将图片梯度转化（黑白），然后分别将水平/竖直方向上的“没有元素”内容进行连接然后继续去除，可以实现模型对高分辨率的图像的处理）对于编码后的... Wed, 19 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/19/DocAI-HR.html 深入探讨Attention变种与内存优化：从MHA到Flash/Page Attention https://www.big-yellow-j.top/posts/2025/02/17/Attention.html 本文主要介绍常用的Attention操作（多头注意力等）以及在KV-cahce中如何节约内容的操作一、Attention操作1、MultiHeadAttention关于MultiHeadAttention网上有较多的解释了，这里主要记... Mon, 17 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/17/Attention.html 常见的各类LLM基座模型（GPT、DeepSeek、Qwen等）模型解析以及对比 https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总只去对比整体框架，对所采用的激活函数，归一化处理，位置编码等参考：1、位置编码：https://www.big-yellow-j.top/posts/2025/02/03/pos-embedding.html2、... Sat, 15 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 深度学习中常见的LLM微调技术及其代码 https://www.big-yellow-j.top/posts/2025/02/12/finetuning.html 大语言模型微调，一般来说是指在一个预训练完成的LLM上去针对对应的下游任务进行微调，让其更加适应下游任务，一般来说可以：1、全面微调（对LLM中全部参数进行调整，如果模型参数量很大的时候这个花销是比较大的）；2、部分参数微调1、Pro... Wed, 12 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/12/finetuning.html LLM中常用的位置编码原理及其代码 https://www.big-yellow-j.top/posts/2025/02/03/pos-embedding.html 一、位置编码位置编码用于在输入序列中标记每个单词或标记的位置，这有助于模型理解输入序列中各个部分的相对位置，从而更好地捕捉序列中的长距离依赖关系。换言之，如果仅在查询（Q）和键（K）上使用位置编码，当我们计算$QK^T$时，模型可以得... Mon, 03 Feb 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/02/03/pos-embedding.html 深度学习混合专家模型（MoE）/KV-cache原理及其代码 https://www.big-yellow-j.top/posts/2025/01/27/MoE-KV-cache.html 主要介绍混合专家模型（MoE）、KVcache并且结合代码进行解释1、混合专家模型（MoE）参考HuggingFace中介绍：混合专家模型主要由两部分构成：1、稀疏的MoE层：这些层代替了传统Transformer模型中的前馈网络(F... Mon, 27 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/27/MoE-KV-cache.html CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码 https://www.big-yellow-j.top/posts/2025/01/18/CV-Backbone.html 主要介绍在CV中常用的Backbone原理简易代码（代码以及原理经常更新），参考论文中的表格，对不同的任务所使用的backbone如下:针对上面内容分为两块内容：1、基于卷积神经网络的CVBackbone：1.Resnet系列;2.U... Sat, 18 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/18/CV-Backbone.html 深度学习Word Embedding原理及其代码 https://www.big-yellow-j.top/posts/2025/01/06/TextEmbedding.html WordEmbedding：将文本处理为计算机可以理解的数字表示。一种最简单的表示就是直接用one-hot，我建立一个字典，然后对每个字符都进行编码比如说：你好（表示为：10，01）。但是这种编码会有一个问题：丧失语义信息，比如说对于... Mon, 06 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/06/TextEmbedding.html 深度学习中各类学习率优化方法(AdaGrad/RMSprop/Adam/Warm-UP)原理及其代码 https://www.big-yellow-j.top/posts/2025/01/04/learning_rate.html 学习率基础1学习率（LearningRate）在优化算法，尤其是梯度下降和其变体中，扮演着至关重要的角色。它影响着模型训练的速度和稳定性，并且是实现模型优化的关键参数之一。如何理解呢？在统计学中，线性方程的优化过程通常包括以下步骤：构... Sat, 04 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/04/learning_rate.html 深度学习分布式训练-1（模型并行/数据并行/流水线并行/张量并行） https://www.big-yellow-j.top/posts/2025/01/03/DistributeTraining.html 主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码模型并行是指将一个模型的不同部分（如层或子模块）分配到不同的设备上运行。它通常用于非常大的模型，这些模型无法完整地放入单个设备的内存中。在模型并行中，数据会顺序通过... Fri, 03 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/03/DistributeTraining.html 通过单/半/混合精度加速训练以及显存优化（gradient-checkpoint）操作 https://www.big-yellow-j.top/posts/2025/01/01/mixed-precision.html 不同精度训练单精度训练（single-precision）指的是用32位浮点数（FP32）表示所有的参数、激活值和梯度半精度训练（half-precision）指的是用16位浮点数（FP16或BF16）表示数据。（FP16是IEEE标... Wed, 01 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/01/mixed-precision.html 深度学习基础理论————常见评价指标以及Loss Function https://www.big-yellow-j.top/posts/2025/01/01/evaluation-lossfunction.html 评价指标准确率/精确率/召回率 Positive(预测到的正例)Negative(预测到的反例)True(预测结果为真)TPTNFalse(预测结果为假)FPFN争对正案例的计算：1、准确率计算方式（ACC）：$Acc=\frac{T... Wed, 01 Jan 2025 00:00:00 +0000 https://www.big-yellow-j.top/posts/2025/01/01/evaluation-lossfunction.html 机器学习基础原理————数据预处理原理及代码 https://www.big-yellow-j.top/posts/2024/01/06/featureengine.html 数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已一、特征选择（featureselection）为什么要进行特征选择？graphLRB[input]-->A[ML]-->C[output]观察上述流程图，假... Sat, 06 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/06/featureengine.html 机器学习基础原理————集成学习算法 https://www.big-yellow-j.top/posts/2024/01/05/Ensemble-Learning.html 传统机器学习算法(例如：决策树，人工神经网络，支持向量机，朴素贝叶斯等)都是通过弱学习机（weaklearners）来对目标进行预测（分类）。但是，以决策树算法为例，决策树算法在递归过程中，可能会过度分割样本空间，最终导致过拟合。集成... Fri, 05 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/05/Ensemble-Learning.html 机器学习基础原理————可解释性Shap Value原理及代码 https://www.big-yellow-j.top/posts/2024/01/04/shapvalue.html 如果⼀个机器学习模型运⾏良好，为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢？诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时，需要作出权衡：你是只想知道预测是什么？例如，客户流失的概率或某种药物对病... Thu, 04 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/04/shapvalue.html 机器学习基础原理————可解释性LIME原理 https://www.big-yellow-j.top/posts/2024/01/03/lime.html 如果⼀个机器学习模型运⾏良好，为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢？诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时，需要作出权衡：你是只想知道预测是什么？例如，客户流失的概率或某种药物对病... Wed, 03 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/03/lime.html 机器学习基础原理————贝叶斯优化原理及代码实现 https://www.big-yellow-j.top/posts/2024/01/02/BayesianOptimization.html 本文通过结合如下论文以及blog：1、贝叶斯优化研究综述：https://doi.org/10.13328/j.cnki.jos.005607.2、高斯回归可视化：https://jgoertler.com/visual-explor... Tue, 02 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/02/BayesianOptimization.html 视觉模型————AlexNet原理以及代码 https://www.big-yellow-j.top/posts/2024/01/01/alexnet.html Mon, 01 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/01/alexnet.html 视觉模型————LeNet原理以及代码 https://www.big-yellow-j.top/posts/2024/01/01/LeNet.html Mon, 01 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/01/LeNet.html 视觉模型————GoogleNet原理以及代码 https://www.big-yellow-j.top/posts/2024/01/01/GoogleNet.html Mon, 01 Jan 2024 00:00:00 +0000 https://www.big-yellow-j.top/posts/2024/01/01/GoogleNet.html