🚀 llm-jp-3-1.8b
このリポジトリは、国立情報学研究所の大規模言語モデル研究開発センターによって開発された大規模言語モデルを提供しています。
チェックポイント形式: Hugging Face Transformers
🚀 クイックスタート
必要なライブラリとそのバージョン
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
💻 使用例
基本的な使用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-1.8b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-1.8b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
Transformerベースの言語モデル |
総トークン数 |
2.1T |
パラメータ |
レイヤー数 |
隠れ層サイズ |
ヘッド数 |
コンテキスト長 |
埋め込みパラメータ |
非埋め込みパラメータ |
1.8b |
24 |
2048 |
16 |
4096 |
407,896,064 |
1,459,718,144 |
3.7b |
28 |
3072 |
24 |
4096 |
611,844,096 |
3,171,068,928 |
13b |
40 |
5120 |
40 |
4096 |
1,019,740,160 |
12,688,184,320 |
トークナイザー
このモデルのトークナイザーは、huggingface/tokenizersのUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v3.0
から変換されています。語彙構築手順の詳細については、llm-jp-tokenizer
のREADME.mdを参照してください(純粋なSentencePieceトレーニングでは、私たちの語彙を再現できません)。
データセット
事前学習
モデルは、以下のデータセットの混合を使用して事前学習されています。
命令微調整
モデルは、以下のデータセットで微調整されています。
評価
llm-jp-eval (v1.3.1)
開発分割からの100の例を使用してモデルを評価しました。
モデル名 |
平均 |
EL |
FA |
HE |
MC |
MR |
MT |
NLI |
QA |
RC |
llm-jp-3-1.8b |
0.3767 |
0.3725 |
0.1948 |
0.2350 |
0.2500 |
0.0900 |
0.7730 |
0.3080 |
0.4629 |
0.7040 |
llm-jp-3-1.8b-instruct |
0.4596 |
0.4280 |
0.1987 |
0.3250 |
0.3300 |
0.4200 |
0.7900 |
0.3520 |
0.4698 |
0.8224 |
llm-jp-3-3.7b |
0.4231 |
0.3812 |
0.2440 |
0.2200 |
0.1900 |
0.3600 |
0.7947 |
0.3800 |
0.4688 |
0.7694 |
llm-jp-3-3.7b-instruct |
0.5188 |
0.4191 |
0.2504 |
0.3400 |
0.5000 |
0.5800 |
0.8166 |
0.4500 |
0.4881 |
0.8247 |
llm-jp-3-13b |
0.5802 |
0.5570 |
0.2593 |
0.4600 |
0.7000 |
0.6300 |
0.8292 |
0.3460 |
0.5937 |
0.8469 |
llm-jp-3-13b-instruct |
0.6168 |
0.5408 |
0.2757 |
0.4950 |
0.9200 |
0.7100 |
0.8317 |
0.4640 |
0.4642 |
0.8500 |
日本語MTベンチ
gpt-4-0613
を使用してモデルを評価しました。詳細については、コードを参照してください。
リスクと制限
ここで公開されているモデルは、私たちの研究開発の初期段階にあり、出力が人間の意図と安全上の考慮事項に沿うように調整されていません。
質問先
llm-jp(at)nii.ac.jp
📄 ライセンス
Apache License, Version 2.0
モデルカード作成者
名前はアルファベット順にリストされています。
Hirokazu KiyomaruとTakashi Kodama。