🚀 CausalLM 14B - Meta LLaMA 2 と完全互換
CausalLM 14Bは、Meta LLaMA 2と完全互換性のある言語モデルです。多くの定量評価において、70B未満の既存モデルを上回る可能性があります。transformersライブラリを使用して簡単にロードでき、モデル量子化もGGUF(llama.cpp)、GPTQ、AWQと互換性があります。

画像はGPT - 4 DALL·E 3によって生成されました 要約: 多くの定量評価で、70B未満の既存のすべてのモデルよりも優れている可能性があります...
🚀 クイックスタート
transformersライブラリを使用して、このモデルをロードすることができます。AutoModelForCausalLMとAutoTokenizerを使用するか、手動でLlamaForCausalLMを指定してLMを、GPT2Tokenizerを指定してTokenizerをロードします。また、モデル量子化はGGUF(llama.cpp)、GPTQ、AWQと完全互換です。
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("CausalLM/14B")
tokenizer = AutoTokenizer.from_pretrained("CausalLM/14B")
✨ 主な機能
- 互換性: Meta LLaMA 2と完全互換で、transformersライブラリを使用して簡単にロードできます。
- 量子化互換性: GGUF(llama.cpp)、GPTQ、AWQとの完全互換性を持ちます。
- 高性能: 多くの定量評価で、70B未満の既存のモデルを上回る可能性があります。
📦 インストール
このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
最近の更新
DPO - α Version がMT - BenchでZephyr - βを上回りました。
注意事項
- VRAMが不足している場合は、量子化バージョンではなく7Bモデルを使用することをお勧めします。7Bバージョンと14Bバージョンは、量子化バージョンと比較して高い一貫性を示します。
- 非公式のGPTQとAWQモデルは、Wikitextを使用してキャリブレーションされているため、問題が発生する可能性があります。このモデルは合成されたWikipedia対話データセットで大量に訓練されています。
モデルの訓練
このモデルは、Qwenのモデル重みに基づいて訓練されており、一部の初期重みの計算にLLaMA2も使用されています。訓練には、Hugging Faceのオープンソースデータセットを利用した13億トークンのSFTデータセットが使用されました。
プロンプト形式
chatml 形式を使用します。システムプロンプトは空にしないでください!
評価結果
MMLU
- STEM ACC: 64.19
- 人文及び芸術学科 ACC: 61.40
- その他学科 ACC: 71.64
- 社会学科 ACC: 75.37
- 平均 ACC: 67.36(70B未満のすべてのモデルを上回り、最良の70B微調整モデルに非常に近い)
CEval(検証セット)
- STEM ACC: 66.71
- 社会科学 ACC: 85.10
- 人文学科 ACC: 76.68
- その他学科 ACC: 70.23
- 困難 ACC: 54.71
- 平均 ACC: 73.10(Qwen - 14BとGPT - 4を上回る)
GSM8K
- ゼロショット ACC 0.7012888551933283(MetaMath - 13B、Qwen - 14Bを上回る)
AlpacaEvalリーダーボード
|
勝率 |
標準誤差 |
勝利数 |
ベース勝利数 |
引き分け数 |
総試行数 |
モード |
平均長さ |
causallm - 14b |
88.26087 |
1.116333 |
705 |
89 |
11 |
805 |
コミュニティ |
1391 |
[AlpacaEvalリーダーボード](https://tatsu - lab.github.io/alpaca_eval/) での勝率は 88.26% です。[生データを表示](https://github.com/tatsu - lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm - 14b/model_outputs.json)
DPOバージョンのMT - Bench
モデル |
MT - Bench |
GPT - 4 |
8.99 |
GPT - 3.5 - Turbo |
7.94 |
|
|
Zephyr - 7b - β (過学習) |
7.34 |
Zephyr - 7b - α |
6.88 |
|
|
[CausalLM/14B - DPO - α](https://huggingface.co/CausalLM/14B - DPO - alpha) |
7.618868 |
[CausalLM/7B - DPO - α](https://huggingface.co/CausalLM/7B - DPO - alpha) |
7.038125 |
他言語に関する情報
現在、非QAタスク(英語と中国語以外の言語)に対する正確なベンチマークテンプレートを生成することはできません。しかし、近い将来、他言語バージョンのQAタスクチャレンジを開発する予定です。
日本語ベンチマーク
タスク |
バージョン |
指標 |
値 |
|
標準誤差 |
jcommonsenseqa - 1.1 - 0.6 |
1.1 |
acc |
0.8213 |
± |
0.0115 |
JCommonsenseQAベンチマークの結果は、[Japanese Stable LM Gamma 7B (83.47)](https://github.com/Stability - AI/lm - evaluation - harness/tree/jp - stable)(現在のSOTA日本語LM)に非常に近いです。ただし、このモデルは日本語の大量のテキストで訓練されていません。これは、メタ言語の言語間移行能力を反映している可能性があります。
🤗 Open LLMリーダーボード
2023年12月3日現在、DPOバージョンは🤗 Open LLMリーダーボードで~13Bのすべてのチャットモデルの中で1位です。

📄 ライセンス
このモデルはWTFPLライセンスの下で提供されています。
データセット
データセット名 |
JosephusCheung/GuanacoDataset |
Open - Orca/OpenOrca |
stingning/ultrachat |
meta - math/MetaMathQA |
liuhaotian/LLaVA - Instruct - 150K |
jondurbin/airoboros - 3.1 |
WizardLM/WizardLM_evol_instruct_V2_196k |
RyokoAI/ShareGPT52K |
RyokoAI/Fandom23K |
milashkaarshif/MoeGirlPedia_wikitext_raw_archive |
wikipedia |
wiki_lingua |
fnlp/moss - 003 - sft - data |
garage - bAInd/Open - Platypus |
LDJnr/Puffin |
openbmb/llava_zh |
BAAI/COIG |
TigerResearch/tigerbot - zhihu - zh - 10k |
liwu/MNBVC |
teknium/openhermes |