E

Eleuther Pythia2.8b Hh Sft

lomahonyによって開発
Pythia-2.8bベースの因果言語モデルで、Anthropicの人間嗜好データセットを使用した教師ありファインチューニングを実施
ダウンロード数 205
リリース時間 : 8/7/2023

モデル概要

人間のフィードバック強化学習(RLHF)でファインチューニングされた大規模言語モデルで、人間の嗜好に沿ったテキスト生成に特化

モデル特徴

人間の嗜好アライメント
RLHFファインチューニングにより、モデルの出力が人間の価値観や嗜好により適合
透明性と再現性
完全なトレーニングログと評価方法を公開し、研究の再現性を確保
効率的なトレーニング
わずか1トレーニングエポックで顕著な効果向上を実現

モデル能力

テキスト生成
対話システム
嗜好アライメントテキスト生成
オープンドメインQA

使用事例

対話システム
インテリジェントアシスタント
人間の嗜好に沿った対話アシスタントの構築
より安全で役立つ返答を生成
コンテンツ生成
安全なテキスト生成
倫理道徳に沿ったコンテンツ生成
有害または偏見のあるコンテンツの発生を低減
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase