llm-jp-13b-v2.0オープンソース大規模言語モデル - 無料でデプロイ可能、日英両言語のテキスト生成をサポート

ホーム

Llm Jp 13b V2.0

llm-jpによって開発

日本の共同プロジェクトLLM-jpによって開発された大規模言語モデルで、日本語と英語をサポートし、主にテキスト生成タスクに使用されます。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語大規模言語モデル #多言語テキスト生成 #命令微調整最適化

ダウンロード数 570

リリース時間 : 4/23/2024

モデル概要

これはTransformerアーキテクチャに基づく大規模言語モデルで、事前学習と命令微調整を経ており、日本語と英語のテキスト生成タスクを処理できます。

モデル特徴

多言語サポート

特に日本語と英語の処理能力を最適化

大規模事前学習

2560億トークンの混合データセットで事前学習

多様な命令微調整

複数の命令データセットを使用して微調整し、モデルの応答品質を向上

効率的なトークナイザー

UnigramバイトフォールバックモデルのHugging Face高速トークナイザーを採用し、特に日本語処理を最適化

モデル能力

日本語テキスト生成

英語テキスト生成

コード生成

命令応答

使用事例

コンテンツ作成

日本語記事生成

日本語の表現習慣に合った記事を生成

質問応答システム

日本語質問応答

日本語ユーザーの質問に回答

コード補助

コード生成

説明に基づいてコードスニペットを生成

🚀 llm-jp-13b-v2.0

このリポジトリは、日本で始まった共同プロジェクトであるLLM-jpによって開発された大規模言語モデルを提供しています。

モデルバリアント
命令モデル
llm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0
llm-jp-13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0
llm-jp-13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0


事前学習モデル
llm-jp-13b-v2.0

チェックポイント形式: Hugging Face Transformers

🚀 クイックスタート

必要なライブラリとそのバージョン

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 ドキュメント

モデルの詳細

属性	詳情
モデルタイプ	Transformerベースの言語モデル
総トークン数	256B

モデル	パラメータ数	レイヤー数	隠れ層サイズ	ヘッド数	コンテキスト長
13bモデル	13b	40	5120	40	4096

学習

事前学習:
- ハードウェア: 128台のA100 40GB GPU (mdxクラスタ)
- ソフトウェア: Megatron-LM
命令微調整:
- ハードウェア: 8台のA100 40GB GPU (mdxクラスタ)
- ソフトウェア: TRL と DeepSpeed

トークナイザ

このモデルのトークナイザは、huggingface/tokenizersのUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2)から変換されています。語彙構築手順の詳細については、llm-ja-tokenizerのREADME.mdを参照してください（純粋なSentencePiece学習では、私たちの語彙を再現できません）。

モデル: Unigram byte-fallbackモデルを使用したHugging Face Fast Tokenizer
学習アルゴリズム: SentencePiece Unigram byte-fallbackで構築されたコード/英語/日本語の語彙をマージし、EMアルゴリズムでスコアを再推定する。
学習データ: モデル事前学習用データセットのサブセット
語彙サイズ: 96,867（日本語、英語、ソースコードの混合語彙）
- 事前学習モデルの実際の語彙サイズは、256の倍数に切り上げられるため、97,024になります。

データセット

事前学習

モデルは、以下のデータセットの混合を使用して事前学習されています。

言語	データセット	トークン数
日本語	Wikipedia	1.4B
	Common Crawl	130.7B
英語	Wikipedia	4.7B
	The Pile	110.3B
コード	The Stack	8.7B

命令微調整

モデルは、以下のデータセットで微調整されています。

言語	データセット	説明
日本語	ichikara-instruction-004-001	手動で構築された日本語命令データセット
	answer-carefully-001	LLMの安全性に焦点を当てた手動で構築された日本語命令データセット
	databricks-dolly-15k-ja	databricks-dolly-15k をDeepLで日本語に翻訳したもの
	oasst1-21k-ja	oasst1 のサブセットをDeepLで日本語に翻訳したもの
	oasst2-33k-ja	oasst2 のサブセットをDeepLで日本語に翻訳したもの
英語	databricks-dolly-15k	-
	oasst1-21k-en	oasst1 のサブセット
	oasst2-33k-en	oasst2 のサブセット