Deep Speed Chat 基于微软 Deep Speed 深度学习优化库开发,具备训练、强化推理等功能,使用 RLHF(人工反馈机制的强化学习)技术,可将训练速度提升 15 倍以上,并大幅降低成本。例如,一个 130 亿参数的类 ChatGPT 模型,只需 1.25 小时就能完成训练。
Deep Speed Chat 是一款能够解决训练类 ChatGPT 模型的资源和算法难题的技术,它能够轻松、高效的训练数千亿参数的最先进的类 ChatGPT 模型。使用 Deep Speed Chat,用户只需一个脚本即可实现多个训练步骤,包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤,生成属于自己的类 ChatGPT 模型。