7B-DPO-alphaオープンソース言語モデル - 中国語と英語のテキスト生成タスクを無料でサポート

ホーム

7B DPO Alpha

CausalLMによって開発

マルチソースデータセットでトレーニングされた7Bパラメータの因果言語モデルで、DPO最適化を経て、中国語と英語のテキスト生成タスクをサポート

大規模言語モデル

Transformers

複数言語対応#中日バイリンガル生成 #人間の選好最適化 #マルチソースデータセット

ダウンロード数 131

リリース時間 : 11/2/2023

モデル概要

このモデルは、直接選好最適化(DPO)を経た因果言語モデルで、テキスト生成タスクに特化しています。Llamaアーキテクチャに基づき、複数の高品質データセットを統合してトレーニングされており、MT-Benchベンチマークテストで同クラスの7Bモデルを上回る性能を示しています。

モデル特徴

マルチソースデータ統合

Guanaco、OpenOrca、UltraChatなど20以上の高品質データセットを統合し、幅広い分野をカバー

DPO最適化

直接選好最適化手法を採用してトレーニングされ、ベースバージョンよりも人間の選好に沿っている

バイリンガルサポート

英語と中国語のテキスト生成を同時にサポートし、中国語タスクで優れた性能を発揮

性能最適化

MT-Benchスコア7.038を達成し、同クラス7Bモデルの平均を上回る

モデル能力

テキスト生成

対話システム

質問応答システム

コンテンツ作成

使用事例

対話システム

インテリジェントカスタマーサポート

マルチターン対話型カスタマーサポートシステムの構築に使用

コンテンツ作成

記事生成

プロンプトに基づいて一貫性のあるテキストコンテンツを生成

教育支援

学習アシスタント

学習に関する質問に答え、知識の説明を提供

🚀 CausalLMモデル

CausalLMはテキスト生成を行うモデルで、複数のデータセットを用いて訓練されています。このモデルにはDPO訓練を行った最適化バージョンがあり、性能が向上しています。

📚 詳細ドキュメント

データセット

このモデルの訓練に使用されたデータセットは以下の通りです。

JosephusCheung/GuanacoDataset
Open-Orca/OpenOrca
stingning/ultrachat
meta-math/MetaMathQA
liuhaotian/LLaVA-Instruct-150K
jondurbin/airoboros-3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss-003-sft-data
garage-bAInd/Open-Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot-zhihu-zh-10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys-chat-1m

言語

このモデルは英語と中国語に対応しています。

パイプラインタグ

テキスト生成

性能比較

DPO訓練を行ったモデルと他のモデルのMT-Benchスコアを比較した表を以下に示します。

モデル	MT-Bench
GPT-4	8.99
GPT-3.5-Turbo	7.94

Zephyr-7b-β (過学習)	7.34
Zephyr-7b-α	6.88

CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

注意事項

このモデルはCausalLM/14B & 7Bの続きの訓練ではなく、以前の訓練ブランチで同時にDPO訓練を行った最適化バージョンです。一部の詳細パラメータが変更されている可能性があり、完全なモデルをダウンロードする必要があります。

ベータブランチ

ベータブランチは近日公開予定です。一部のタスクに不利なアプローチを採用していますが、人間の嗜好により適合するように最適化され、GPT-3.5のベンチマークを満たすまたは超えることを目指しています。

免責事項

このモデルは未フィルターのインターネットデータで訓練されています。すべてのデータを審査する能力がないため、大量の不適切な内容、ポルノ、暴力、不快な言葉が含まれている可能性があり、これらを削除することはできません。したがって、モデルの安全性を独自に確認し、出力のキーワードをフィルタリングする必要があります。計算資源の制約により、現在はモデルの倫理と安全性のためのRLHFを実装することも、特定の質問に答えないSFTサンプルでの訓練を行うこともできません。