Stockmark-13bオープンソース大規模言語モデル - 日本語コーパスに基づいて訓練され、多様な言語ニーズを満たす

ホーム

Stockmark 13b

stockmarkによって開発

Stockmark-13bは約2200億トークンの日本語コーパスを使用してゼロからプリトレーニングされた130億パラメータの大規模言語モデルで、Stockmark Inc.によって開発されました。

大規模言語モデル

Transformers

日本語オープンソースライセンス:MIT #日本語大規模言語モデル #2200億トークンプリトレーニング #特許文献処理

ダウンロード数 604

リリース時間 : 10/21/2023

モデル概要

これは日本語処理に特化した大規模言語モデルで、テキスト生成などの自然言語処理タスクに適しています。

モデル特徴

大規模日本語プリトレーニング

2200億トークンの日本語コーパスでトレーニングされ、日本語処理能力に特化

AWS Trainiumサポート

AWS大規模言語モデル開発支援プログラムのサポートを受け、Trainiumアクセラレーターでトレーニング

量子化サポート

8ビット量子化をサポートし、T4やV100などのGPUで実行可能

モデル能力

日本語テキスト生成

自然言語理解

文脈学習

使用事例

自然言語処理

日本語テキスト生成

一貫性のある日本語テキストを生成

128個の新規トークンまで一貫性のあるテキストを生成可能

技術文書処理

特許文献などの技術文書を処理

🚀 stockmark/stockmark-13b

Stockmark-13bは、約2200億トークンの日本語コーパスに基づいてゼロから事前学習された130億パラメータの大規模言語モデル（LLM）です。このモデルはStockmark Inc.によって開発されています。

詳細については、弊社のブログをご覧ください。

このプロジェクトはAWS LLM開発サポートプログラムによって支援されています。

また、stockmark-13b-instructも提供しており、これはstockmark-13bの命令微調整版です。

🚀 クイックスタート

Stockmark-13bを使い始める方法を説明します。

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# For A100 or H100 GPU
model = AutoModelForCausalLM.from_pretrained("stockmark/stockmark-13b", device_map="auto", torch_dtype=torch.bfloat16)

# If you use a T4 or V100 GPU, please load a model in 8 bit with the below code.
# To do so, you need to install `bitsandbytes` via `pip install bitsandbytes`.
# model = AutoModelForCausalLM.from_pretrained("stockmark/stockmark-13b", device_map={"": 0}, load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained("stockmark/stockmark-13b")

inputs = tokenizer("自然言語処理とは", return_tensors="pt").to(model.device)
with torch.no_grad():
    tokens = model.generate(
        **inputs,
        max_new_tokens=128,
        do_sample=True,
        temperature=0.7
    )
    
output = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(output)

その他の使用例

LoRA微調整: https://huggingface.co/stockmark/stockmark-13b/blob/main/notebooks/LoRA.ipynb

📚 ドキュメント

学習データセット

合計約2200億トークンの日本語コーパスを使用しています。

コーパス	前処理後のトークン数
Stockmark Web Corpus (このデータセットは公開されません)	91億
特許	348億
Wikipedia	10億
CC100	109億
mC4	532億
CommonCrawl (スナップショット: 2023-23, 2022-49, 2022-21, 2021-21)	1129億

アクセラレータとライブラリ

アクセラレータ: AWS Trainium
- https://aws.amazon.com/machine-learning/trainium/
分散学習用ライブラリ: neuronx-nemo-megatron
- https://github.com/aws-neuron/neuronx-nemo-megatron