🚀 llm-jp-13b-v2.0
このリポジトリは、日本で始まった共同プロジェクトであるLLM-jpによって開発された大規模言語モデルを提供しています。
チェックポイント形式: Hugging Face Transformers
🚀 クイックスタート
必要なライブラリとそのバージョン
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
💻 使用例
基本的な使用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
モデルタイプ |
Transformerベースの言語モデル |
総トークン数 |
256B |
モデル |
パラメータ数 |
レイヤー数 |
隠れ層サイズ |
ヘッド数 |
コンテキスト長 |
13bモデル |
13b |
40 |
5120 |
40 |
4096 |
学習
-
事前学習:
- ハードウェア: 128台のA100 40GB GPU (mdxクラスタ)
- ソフトウェア: Megatron-LM
-
命令微調整:
トークナイザ
このモデルのトークナイザは、huggingface/tokenizersのUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2)
から変換されています。語彙構築手順の詳細については、llm-ja-tokenizer
のREADME.mdを参照してください(純粋なSentencePiece学習では、私たちの語彙を再現できません)。
- モデル: Unigram byte-fallbackモデルを使用したHugging Face Fast Tokenizer
- 学習アルゴリズム: SentencePiece Unigram byte-fallbackで構築されたコード/英語/日本語の語彙をマージし、EMアルゴリズムでスコアを再推定する。
- 学習データ: モデル事前学習用データセットのサブセット
- 語彙サイズ: 96,867(日本語、英語、ソースコードの混合語彙)
- 事前学習モデルの実際の語彙サイズは、256の倍数に切り上げられるため、97,024になります。
データセット
事前学習
モデルは、以下のデータセットの混合を使用して事前学習されています。
命令微調整
モデルは、以下のデータセットで微調整されています。
評価
いくつかのLLMの評価結果は、このリーダーボードで確認できます。評価には、llm-jp-eval (v1.3.0) を使用しました。
また、LLMを評価するために、Japanese Vicuna QA Benchmark と Japanese MT Bench というLLM評価フレームワークを使用しました。詳細については、技術ブログ(日本語)を参照してください。
リスクと制限
ここで公開されているモデルは、まだ研究開発の初期段階にあり、出力が人間の意図や安全性の考慮事項と一致するように調整されていません。
質問先
llm-jp(at)nii.ac.jp
📄 ライセンス
Apache License, Version 2.0
モデルカード作成者
名前はアルファベット順に並んでいます。
Namgi Han, Tatsuya Hiraoka, Hirokazu Kiyomaru, Takashi Kodama, および Hiroshi Matsuda。