14B - DPO - alphaオープンソース言語モデル - 無料で中英テキスト生成をサポート、MT

ホーム

14B DPO Alpha

CausalLMによって開発

CausalLM/14B-DPO-αは因果言語モデルに基づく大規模言語モデルで、中英テキスト生成タスクをサポートし、MT-Bench評価で優れた性能を発揮します。

大規模言語モデル

Transformers

複数言語対応#多言語テキスト生成 #命令微調整最適化 #中国語Q&Aリーダー

ダウンロード数 172

リリース時間 : 11/2/2023

モデル概要

このモデルは14Bパラメータ規模の因果言語モデルで、DPO（Direct Preference Optimization）最適化手法を用いて訓練され、高品質なテキスト生成タスクに特化しています。

モデル特徴

高性能テキスト生成

MT-Bench評価で7.618868点を獲得し、同規模他モデルを凌駕

多言語サポート

中英テキスト生成タスクをサポート

DPO最適化

Direct Preference Optimization手法で訓練され、生成品質を向上

大規模訓練データ

Guanaco、OpenOrca、Ultrachatなど20以上の高品質データセットで訓練

モデル能力

テキスト生成

対話システム

質問応答システム

コンテンツ作成

使用事例

対話システム

インテリジェントカスタマーサポート

多言語インテリジェントカスタマーサポートシステム構築に使用

流暢で正確なカスタマーサポート対話体験を提供

コンテンツ作成

記事生成

コンテンツクリエイターが高品質記事を生成するのを支援

流暢で論理的なコンテンツを生成

教育

学習アシスタント

学生の学習補助ツールとして質問に回答

正確な知識解答を提供

🚀 CausalLM-DPOモデル

このモデルは、DPOトレーニングを行った最適化バージョンで、多様なデータセットを使用して訓練され、テキスト生成タスクに対応しています。

🚀 クイックスタート

詳細については、DPOトレーニングを行っていないバージョンを参照してください：CausalLM/14B。

📚 ドキュメント

データセット

このモデルは以下のデータセットを使用して訓練されています。

JosephusCheung/GuanacoDataset
Open-Orca/OpenOrca
stingning/ultrachat
meta-math/MetaMathQA
liuhaotian/LLaVA-Instruct-150K
jondurbin/airoboros-3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss-003-sft-data
garage-bAInd/Open-Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot-zhihu-zh-10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys-chat-1m

言語サポート

パイプラインタグ

text-generation

モデル評価

モデル	MT-Bench
GPT-4	8.99
GPT-3.5-Turbo	7.94

Zephyr-7b-β (過学習)	7.34
Zephyr-7b-α	6.88

CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

2023年12月3日現在、🤗 Open LLM Leaderboardで同サイズの非ベースモデルとして1位で、約13Bのチャットモデルをすべて上回っています。

モデルの注意点

これはCausalLM/14Bと7Bのベースで継続的にトレーニングされたバージョンではなく、以前のトレーニングブランチで同時にDPOトレーニングを行った最適化バージョンであり、一部の詳細パラメータが変更されている可能性があります。そのため、依然として完全なモデルをダウンロードする必要があります。

ベータバージョンの予告

ベータブランチは近日公開予定です。このバージョンでは、一部のタスクで不利になる可能性のある積極的なアプローチを採用し、人間の嗜好によりよく一致するように最適化し、GPT-3.5のベンチマークを達成または上回ることを目指しています。お楽しみに。

免責事項

このモデルはフィルタリングされていないインターネットデータで訓練されています。すべてのデータを精査する能力がないため、多くの不快な内容、ポルノ、暴力、攻撃的な言葉が含まれており、これらを削除することはできません。したがって、モデルの安全性を独自に確認し、出力のキーワードをフィルタリングする必要があります。計算資源の制約により、現在はモデルの倫理と安全性のためのRLHFを実装することも、特定の質問に答えないSFTサンプルでの制限的な微調整を行うこともできません。