llm-jp-13b-v1.0オープンソース大規模言語モデル - 無料で日本語と英語のテキスト生成をサポート

ホーム

Llm Jp 13b V1.0

llm-jpによって開発

日本共同プロジェクトLLM-jpによって開発された大規模言語モデルで、日本語と英語のテキスト生成をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語大規模言語モデル #マルチインストラクションファインチューニングバリアント #3000億トークンプリトレーニング

ダウンロード数 784

リリース時間 : 10/18/2023

モデル概要

これはTransformerアーキテクチャに基づく大規模言語モデルで、特に日本語と英語に最適化されており、テキスト生成タスクに使用できます。

モデル特徴

日本語最適化

特に日本語向けに最適化されたトレーニングが行われており、大量の日本語トレーニングデータを含む

多言語サポート

日本語と英語のテキスト生成を同時にサポート

大規模プリトレーニング

3000億トークンの多言語データセットでプリトレーニングを実施

多様化ファインチューニング

異なるデータセットでファインチューニングされた複数のモデルバリアントを提供

モデル能力

日本語テキスト生成

英語テキスト生成

コード理解と生成

使用事例

自然言語処理

日本語QAシステム

日本語ユーザー向けのインテリジェントQAシステム構築

多言語コンテンツ生成

日本語と英語のテキストコンテンツ生成

教育

言語学習アシスタント

日本語と英語学習者の言語練習を支援

🚀 llm-jp-13b-v1.0

このリポジトリは、日本で立ち上げられた共同プロジェクトである LLM-jp によって開発された大規模言語モデルを提供しています。

✨ 主な機能

様々なバリエーションの言語モデルを提供。
事前学習済みモデルと命令微調整済みモデルが用意されています。

📦 インストール

必要なライブラリとそのバージョンは以下の通りです。

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

📚 ドキュメント

モデルの詳細

属性	詳情
モデルタイプ	Transformerベースの言語モデル
総トークン数	300B

モデル	パラメータ	レイヤー数	隠れ層サイズ	ヘッド数	コンテキスト長
13bモデル	13b	40	5120	40	2048
1.3bモデル	1.3b	24	2048	16	2048

学習

事前学習
- ハードウェア：96台のA100 40GB GPU (mdxクラスタ)
- ソフトウェア：Megatron-DeepSpeed
命令微調整
- ハードウェア：8台のA100 40GB GPU (mdxクラスタ)
- ソフトウェア：TRL、PEFT、DeepSpeed

トークナイザー

このモデルのトークナイザーは、huggingface/tokenizers のUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v2.1 (50k) から変換されました。語彙構築手順の詳細については、llm-ja-tokenizer の README.md を参照してください。

モデル：Unigram byte-fallbackモデルを使用するHugging Face Fast Tokenizer（tokenizers>=0.14.0 が必要）
学習アルゴリズム：SentencePiece Unigram byte-fallback
学習データ：モデル事前学習用データセットのサブセット
語彙サイズ：50,570（日本語、英語、ソースコードの混合語彙）

データセット

事前学習

モデルは、以下のデータセットの混合を使用して事前学習されています。

言語	データセット	トークン数
日本語	Wikipedia	1.5B
	mC4	136B
英語	Wikipedia	5B
	The Pile	135B
コード	The Stack	10B

事前学習は、それぞれ約27 - 28Bトークンから構成される10フォールドの非重複データを使用して継続的に行われました。最後に、上記の10フォールドデータと同じソースデータセットから取得した追加の（潜在的に）高品質な27Bトークンのデータで事前学習を完了しました。

命令微調整

モデルは、以下のデータセットで微調整されています。

言語	データセット	説明
日本語	jaster	既存の日本語NLPデータセットから自動変換されたデータ
	databricks-dolly-15k	LLM-jpでDeepLによって翻訳されたもの
	OpenAssistant Conversations Dataset	LLM-jpでDeepLによって翻訳されたもの

評価

いくつかのLLMの評価結果は、このリーダーボードで確認できます。評価には llm-jp-eval を使用しました。

🔧 技術詳細

モデルのバリエーション | モデルバリエーション | | :--- | |命令モデル| | llm-jp-13b-instruct-full-jaster-v1.0 | | llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0 | | llm-jp-13b-instruct-full-dolly-oasst-v1.0 | | llm-jp-13b-instruct-lora-jaster-v1.0 | | llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0 | | llm-jp-13b-instruct-lora-dolly-oasst-v1.0 |


事前学習済みモデル
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0
チェックポイントの形式：Hugging Face Transformers（Megatron-DeepSpeed形式のモデルはこちらで入手可能）