前文已经介绍了:
本文主要介绍 强化学习框架:OpenRLHF源码解读,模型训练。
模型训练脚本:🔗 脚本中主要涉及到参数:1、模型脚本:openrlhf.cli.train_ppo_ray
;2、
train_ppo_ray.py
From: https://github.com/OpenRLHF/OpenRLHF/blob/main/openrlhf/cli/train_ppo_ray.py
前面已经介绍了在OpenRLHF中是如何将Ray和vLLM进行结合了,直接回顾 train_ppo_ray.py
代码:
def train(...):
...
# 1、创建vLLM
vllm_engines = None
if ...:
vllm_engines = create_vllm_engines(...)
第一步、创建vLLM,上面已经介绍不做赘述
第二步、