强化学习框架：OpenRLHF源码解读，模型训练-2

前文已经介绍了：

本文主要介绍 强化学习框架：OpenRLHF源码解读，模型训练。

train.sh

模型训练脚本：🔗 脚本中主要涉及到参数：1、模型脚本：openrlhf.cli.train_ppo_ray；2、

From: https://github.com/OpenRLHF/OpenRLHF/blob/main/openrlhf/cli/train_ppo_ray.py

前面已经介绍了在OpenRLHF中是如何将Ray和vLLM进行结合了，直接回顾 train_ppo_ray.py代码：

def train(...):
    ...
    # 1、创建vLLM
    vllm_engines = None
    if ...:
        vllm_engines = create_vllm_engines(...)

第一步、创建vLLM，上面已经介绍不做赘述
第二步、