J

Japanese Gpt Neox 3.6b Instruction Ppo

由 rinna 开发
一个36亿参数的日语GPT-NeoX模型,通过人类反馈强化学习(RLHF)训练,能够更好地遵循指令进行对话。
下载量 3,062
发布时间 : 5/30/2023

模型简介

基于rinna/japanese-gpt-neox-3.6b-instruction-sft-v2模型,通过PPO强化学习训练,优化了指令遵循能力,适用于日语对话生成任务。

模型特点

强化学习优化
通过PPO强化学习训练,相比SFT版本在人工评估中胜率提高至47%
日语指令优化
专门针对日语指令理解与生成进行优化
对话格式支持
支持用户-系统对话格式输入,适合构建对话系统

模型能力

日语文本生成
指令理解与响应
对话系统构建

使用案例

对话系统
客服对话系统
用于构建日语客服对话系统
能够理解用户问题并提供相关解答
个人助手
开发日语个人数字助手
能够理解并执行用户指令
内容生成
日语内容创作
生成日语文章、故事等内容
能够生成连贯的日语文本
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase