LLaMA-3-8B-SFR-SFT-Rオープンソースモデル - Salesforceに適合し、フィードバックプロセスの監督微調整を支援

ホーム

Llama 3 8B SFR SFT R

Salesforceによって開発

LLaMA-3-8Bをベースとした教師あり微調整モデルで、Salesforceによって開発され、強化学習ヒューマンフィードバック（RLHF）ワークフローの教師あり微調整段階で使用されます。

大規模言語モデル

Transformers

#RLHF最適化 #反復型DPO #対話アライメント

ダウンロード数 22

リリース時間 : 5/10/2024

モデル概要

このモデルはSalesforce/SFR-Iterative-DPO-LLaMA-3-8B-Rの教師あり微調整バージョンで、主にテキスト生成タスクに使用され、強化学習ヒューマンフィードバック（RLHF）ワークフローをサポートするように最適化されています。

モデル特徴

教師あり微調整の最適化

強化学習ヒューマンフィードバック（RLHF）ワークフロー向けに特別に教師あり微調整されており、特定のタスクでのモデルのパフォーマンスが向上しています。

反復型DPOサポート

反復型直接選好最適化（DPO）をサポートしており、複雑な強化学習ヒューマンフィードバックシナリオに適しています。

多段階モデルリリース

教師あり微調整モデル、報酬モデル、強化学習ヒューマンフィードバックモデルの完全なワークフローサポートを提供します。

モデル能力

テキスト生成

強化学習ヒューマンフィードバックサポート

教師あり微調整最適化

使用事例

学術研究

RLHF研究

強化学習ヒューマンフィードバック（RLHF）ワークフローの教師あり微調整段階を研究するために使用されます。

特定のタスクでのモデルのパフォーマンスが向上します。

テキスト生成

高品質テキスト生成

高品質なテキストコンテンツを生成し、さまざまな自然言語処理タスクに適しています。

流暢で一貫性のあるテキストを生成します。

🚀 LLaMA-3-8B-SFR-SFT-R

これはSalesforce/SFR-Iterative-DPO-LLaMA-3-8B-R用のSFTモデルです。

🚀 クイックスタート

このモデルは、Salesforce/SFR-Iterative-DPO-LLaMA-3-8B-RのSFTモデルです。以下に関連するモデルのリリース情報を示します。

✨ 主な機能

モデルのリリース

📚 ドキュメント

引用

もし当社のモデルがあなたの研究や製品に役立つと思われる場合は、以下の技術レポートを引用してください。

@misc{dong2024rlhf,
      title={RLHF Workflow: From Reward Modeling to Online RLHF}, 
      author={Hanze Dong and Wei Xiong and Bo Pang and Haoxiang Wang and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
      year={2024},
      eprint={2405.07863},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

Salesforce AIモデル、データ、コードに関する倫理的免責事項

このリリースは、学術論文をサポートするための研究目的のみを対象としています。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公正性に関連する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社の標準的なAUPおよびAI AUPを参照してください。