🚀 DiscoLM 70b
DiscoLM 70b は、LaionのLeoLM 70b をベースにした700億パラメータのモデルです。このモデルは、650億トークンのドイツ語テキストで追加の事前学習を行い、英語の能力を維持(一部改善)しながら、多言語能力を強化しています。その後、人気のあるオープンソースの命令セットを組み合わせてさらに微調整されました。DiscoLM 70bは DiscoResearch のプロジェクトで、Björn Plüster によって訓練されました。
このプロジェクトに対して、LAION と HessianAI が科学的な監督、調整、および HessianAI のスーパーコンピュータ42での計算リソースを提供してくれたことに、深く感謝いたします!

📚 目次
- ダウンロード
- ベンチマーク
- プロンプト形式
- データセット
- 謝辞
- 連絡先
- DiscoResearchについて
- 免責事項
📦 ダウンロード
🔍 ベンチマーク
Hugginfaceリーダーボード
このモデルはまだ初期のアルファ版であり、汚染がないことを保証することはできません。以下は、独自の評価によるスコアです。
指標 |
値 |
ARC (25-shot) |
68.77 |
HellaSwag (10-shot) |
85.41 |
MMLU (5-shot) |
68.64 |
TruthfulQA (0-shot) |
57.69 |
Winogrande (5-shot) |
83.27 |
GSM8k (5-shot) |
63.68 |
平均 |
71.24 |
このモデルは、Open LLMリーダーボードで全体で6位、Llama-2-70bベースのモデルでは2番目に強いモデルとして公式にランク付けされています(TigerBot 70bに次いで2位)。
(2023年12月5日のスクリーンショット)
上記のベンチマークテストは、Language Model Evaluation Harness を使用して実行しており、HuggingFace LLMリーダーボードと同じバージョンを使用しています。
FastEval
指標 |
値 |
GSM8K |
70.6 |
Math |
17.8 |
BBH |
63.4 |
MMLU |
64.7 |
平均 |
48.87 |
現在の(残念ながらもうメンテナンスされていない)FastEval CoTリーダーボードのスクリーンショット:

MTBench
{
"first_turn": 7.9,
"second_turn": 7.0625,
"categories": {
"writing": 9.55,
"roleplay": 8.35,
"reasoning": 6.15,
"math": 4.7,
"coding": 4.8,
"extraction": 7.35,
"stem": 9.1,
"humanities": 9.85
},
"average": 7.48125
}
現在のFastEval MT Benchリーダーボードのスクリーンショット:

💬 プロンプト形式
このモデルはChatML形式に従っています。
<|im_start|>system
You are DiscoLM, a helpful assistant.
<|im_end|>
<|im_start|>user
Please tell me possible reasons to call a research collective "Disco Research"<|im_end|>
<|im_start|>assistant
この形式は、事前定義されたTransformersのチャットテンプレートを介しても利用できます。つまり、メッセージのリストは apply_chat_template()
メソッドで自動的にフォーマットできます。
chat = [
{"role": "system", "content": "You are DiscoLM, a helpful assistant."},
{"role": "user", "content": "Please tell me possible reasons to call a research collective Disco Research"}
]
tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
tokenize=True
と return_tensors="pt"
を使用すると、トークン化されフォーマットされた会話が得られ、model.generate()
に渡すことができます。
📊 データセット
DiscoLM 70bのデータセットの選定は、「ブルートフォース」/「PoC」アプローチに従って行われました。
DiscoLM 70bの訓練には、以下のデータセットが使用されました。
すべてのデータセット提供者/選定者に深く感謝いたします!
📞 連絡先
私たちに連絡する最良の方法は、Discord です。
👥 DiscoResearchについて
DiscoResearchは、野心的なオープンリサーチコミュニティです。Discoは、多くのコミュニティの研究者が集まり、彼らの専門知識を組み合わせて、革新的で画期的な大規模言語モデル(LLM)を作成する場所になることを目指しています。是非、私たちのDiscordに参加して、あなたの意見やアイデアを共有し、オープンなLLM研究を一緒に進めましょう!
🙏 謝辞
Disco 70bは DiscoResearch のプロジェクトで、Björn Plüster によって訓練されました。Jan Harries は技術的なアドバイス、ロジスティクス、およびモデルカードに協力してくれました。
AutoMeta も役立つ技術的なアドバイスを提供し、彼のつながりを活用して高品質なデータセットのセットを選定してくれました。
このモデルは、HessianAI が LAION と協力して提供した計算リソースを使用して訓練されました。特に Patrick Schramowski のサポートに感謝いたします。
私たちは巨人の肩の上に立っています。特に順不同で、LeoLM 70bを提供してくれた Laion (特に私たちをつなげてくれた Christoph Schuhmann )、量子化バージョンを提供してくれた TheBloke 、このモデルの訓練に使用されたAxolotlとSlimOrcaデータセットを提供してくれた winglian 、garage-bAInd、Teknium、Migel Tissera、MetaMath、および LDJnr の素晴らしいデータセットに感謝します(ここで名前を忘れた場合は、ご連絡ください)。

⚠️ 免責事項
このモデルのライセンスは法律上のアドバイスを構成するものではありません。このモデルを使用する第三者の行動について、私たちは責任を負いません。
このモデルは研究目的のみに使用する必要があります。元のLlama2のライセンスおよびこのモデルの訓練に使用されたすべてのデータセットの制限事項が適用されます。
その他の情報
項目 |
詳細 |
データセット |
- Open-Orca/SlimOrca-Dedup - teknium/openhermes - meta-math/MetaMathQA - migtissera/Synthia-v1.3 - THUDM/AgentInstruct - LeoLM/German_Songs - LeoLM/German_Poems - LeoLM/OpenSchnabeltier - bjoernp/ultrachat_de - LDJnr/Capybara |
言語 |
- en - de |
ライブラリ名 |
transformers |
パイプラインタグ |
text-generation |
ライセンス |
llama2 |
モデル作成者 |
DiscoResearch |
モデルタイプ |
llama |
タグ |
- goliath - deutsch - llama2 - discoresearch |