强化学习框架:OpenRLHF源码解读,模型训练-2

HuangJie 于 2025-04-27 在 changsha 发布 ⏳ 预计阅读 1 分钟 浏览量

前文已经介绍了:

本文主要介绍 强化学习框架:OpenRLHF源码解读,模型训练

train.sh

模型训练脚本:🔗 脚本中主要涉及到参数:1、模型脚本:openrlhf.cli.train_ppo_ray;2、

train_ppo_ray.py

From: https://github.com/OpenRLHF/OpenRLHF/blob/main/openrlhf/cli/train_ppo_ray.py

前面已经介绍了在OpenRLHF中是如何将Ray和vLLM进行结合了,直接回顾 train_ppo_ray.py代码:

def train(...):
    ...
    # 1、创建vLLM
    vllm_engines = None
    if ...:
        vllm_engines = create_vllm_engines(...)

第一步、创建vLLM,上面已经介绍不做赘述
第二步、

代码测试

总结

Footer Image
-->