🚀 llm-jp-13b-v1.0
このリポジトリは、日本で立ち上げられた共同プロジェクトである LLM-jp によって開発された大規模言語モデルを提供しています。
✨ 主な機能
- 様々なバリエーションの言語モデルを提供。
- 事前学習済みモデルと命令微調整済みモデルが用意されています。
📦 インストール
必要なライブラリとそのバージョンは以下の通りです。
- torch>=2.0.0
- transformers>=4.34.0
- tokenizers>=0.14.0
- accelerate==0.23.0
💻 使用例
基本的な使用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
モデルタイプ |
Transformerベースの言語モデル |
総トークン数 |
300B |
モデル |
パラメータ |
レイヤー数 |
隠れ層サイズ |
ヘッド数 |
コンテキスト長 |
13bモデル |
13b |
40 |
5120 |
40 |
2048 |
1.3bモデル |
1.3b |
24 |
2048 |
16 |
2048 |
学習
- 事前学習
- ハードウェア:96台のA100 40GB GPU (mdxクラスタ)
- ソフトウェア:Megatron-DeepSpeed
- 命令微調整
トークナイザー
このモデルのトークナイザーは、huggingface/tokenizers のUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v2.1 (50k)
から変換されました。語彙構築手順の詳細については、llm-ja-tokenizer
の README.md を参照してください。
- モデル:Unigram byte-fallbackモデルを使用するHugging Face Fast Tokenizer(
tokenizers>=0.14.0
が必要)
- 学習アルゴリズム:SentencePiece Unigram byte-fallback
- 学習データ:モデル事前学習用データセットのサブセット
- 語彙サイズ:50,570(日本語、英語、ソースコードの混合語彙)
データセット
事前学習
モデルは、以下のデータセットの混合を使用して事前学習されています。
事前学習は、それぞれ約27 - 28Bトークンから構成される10フォールドの非重複データを使用して継続的に行われました。最後に、上記の10フォールドデータと同じソースデータセットから取得した追加の(潜在的に)高品質な27Bトークンのデータで事前学習を完了しました。
命令微調整
モデルは、以下のデータセットで微調整されています。
評価
いくつかのLLMの評価結果は、この リーダーボード で確認できます。評価には llm-jp-eval を使用しました。
🔧 技術詳細
⚠️ 注意事項
ここで公開されているモデルは、まだ研究開発の初期段階にあり、出力が人間の意図や安全性の考慮に沿うように調整されていません。
📧 問い合わせ先
llm-jp(at)nii.ac.jp
📄 ライセンス
Apache License, Version 2.0
モデルカード作成者
名前はアルファベット順に記載されています。
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.