llama-3-youko-8bオープンソースの日本語最適化AIモデル - 日本語と英語のシーン向けに特別に開発

ホーム

Llama 3 Youko 8b

rinnaによって開発

Meta-Llama-3-8Bを基に、日本語と英語の混合データセットで220億トークンの継続事前学習を行った日本語最適化モデル

大規模言語モデル

Transformers

複数言語対応#日本語最適化 #多言語混合トレーニング #継続事前学習

ダウンロード数 1,249

リリース時間 : 5/1/2024

モデル概要

このモデルはLlama 3 8Bに継続事前学習を施すことで、日本語タスクの性能を大幅に向上させ、日本語テキスト生成や理解タスクに適しています

モデル特徴

日本語最適化

220億トークンの日本語コーパスで継続事前学習を行い、日本語処理能力を大幅に向上

多様なデータソース

CC-100、C4、OSCAR、The Pile、ウィキペディアなど多様な高品質データセットを統合

バイリンガル対応

日本語と英語の同時処理をサポートし、バイリンガルアプリケーションに最適

モデル能力

日本語テキスト生成

英語テキスト生成

テキスト理解

文脈学習

使用事例

コンテンツ作成

日本語記事生成

日本語の表現習慣に合った様々な記事を生成

流暢で自然な日本語テキストを生成

教育

日本語学習支援

日本語学習者のために例文生成や文法解説を支援

🚀 `Llama 3 Youko 8B (rinna/llama-3-youko-8b)`

rinna-icon

このモデルは、日本語と英語のデータセットの混合から得られた約220億トークンでmeta-llama/Meta-Llama-3-8Bを継続事前学習したものです。継続事前学習により、日本語タスクでのモデル性能が大幅に向上しています。

youko という名前は、日本の妖怪の一種である妖狐/ようこ/Youkoに由来しています。

サイズ	継続事前学習	命令微調整
8B	Llama 3 Youko 8B [HF] [GPTQ]	Llama 3 Youko 8B Instruct [HF] [GPTQ]
70B	Llama 3 Youko 70B [HF] [GPTQ]	Llama 3 Youko 70B Instruct [HF] [GPTQ]

✨ 主な機能

ライブラリ

このモデルは、EleutherAI/gpt-neoxに基づくコードを使用して学習されました。

モデルアーキテクチャ

32層、隠れ層サイズ4096のTransformerベースの言語モデルです。アーキテクチャの詳細については、Llama 3 Model Cardを参照してください。

学習: Meta Llama 3をベースに構築

このモデルは、meta-llama/Meta-Llama-3-8Bモデルで初期化され、以下のコーパスの混合から得られた約220億トークンで継続学習されました。

Japanese CC-100
Japanese C4
Japanese OSCAR
The Pile
Wikipedia
rinnaが選りすぐった日本語データセット

貢献者

リリース日

2024年5月1日

📚 ドキュメント

ベンチマーク

rinnaのLMベンチマークページ (Sheet 20240507)を参照してください。

トークン化

このモデルは、元のmeta-llama/Meta-Llama-3-8Bのトークナイザーを使用しています。

引用方法

@misc{rinna-llama-3-youko-8b,
    title = {rinna/llama-3-youko-8b},
    author = {Mitsuda, Koh and Chen, Xinqi and Wakatsuki, Toshiaki and Sawada, Kei},
    url = {https://huggingface.co/rinna/llama-3-youko-8b}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}

参考文献

@article{llama3modelcard,
    title = {Llama 3 Model Card},
    author = {AI@Meta},
    year = {2024},
    url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}

@software{gpt-neox-library,
    title = {{GPT}-{N}eo{X}: Large Scale Autoregressive Language Modeling in {P}y{T}orch},
    author = {Andonian, Alex and Anthony, Quentin and Biderman, Stella and Black, Sid and Gali, Preetham and Gao, Leo and Hallahan, Eric and Levy-Kramer, Josh and Leahy, Connor and Nestler, Lucas and Parker, Kip and Pieler, Michael and Purohit, Shivanshu and Songz, Tri and Phil, Wang and Weinbach, Samuel},
    doi = {10.5281/zenodo.5879544},
    month = {8},
    year = {2021},
    version = {0.0.1},
    url = {https://www.github.com/eleutherai/gpt-neox}
}

ライセンス

Meta Llama 3 Community License

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "rinna/llama-3-youko-8b"
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto"
)
output = pipeline(
    "西田幾多郎は、",
    max_new_tokens=256,
    do_sample=True
)
print(output[0]["generated_text"])