japanese - gpt2 - mediumオープンソースの日本語AIモデル - 無料でデプロイして日本語テキスト生成をサポート

ホーム

Japanese Gpt2 Medium

rinnaによって開発

rinna株式会社によってトレーニングされた中規模の日本語GPT-2モデルで、Transformerアーキテクチャに基づき、日本語テキスト生成タスクに適しています。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #日本語テキスト生成 #24層Transformer #CC-100トレーニング

ダウンロード数 7,664

リリース時間 : 3/2/2022

モデル概要

これはGPT-2アーキテクチャに基づく日本語言語モデルで、特に日本語テキスト生成タスク向けに最適化されています。

モデル特徴

日本語最適化

特に日本語テキスト向けにトレーニングおよび最適化されています

中規模

モデル性能と計算リソースの需要のバランスを取っています

Transformerベース

24層Transformerアーキテクチャを採用し、1024隠れ層サイズを持っています

モデル能力

日本語テキスト生成

言語モデリング

テキスト補完

使用事例

テキスト生成

日本語記事作成

一貫性のある日本語の記事や段落を生成します

対話システム

日本語チャットボットの構築に使用できます

言語処理

テキスト補完

入力プロンプトに基づいて日本語の文や段落を完成させます

🚀 japanese-gpt2-medium

このリポジトリは、中規模の日本語GPT - 2モデルを提供しています。このモデルは、rinna Co., Ltd.によるGithubリポジトリrinnakk/japanese-pretrained-modelsのコードを使用して学習されました。

🚀 クイックスタート

このモデルを使用するには、以下のコードを実行します。

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt2-medium", use_fast=False)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")

✨ 主な機能

このモデルは、自然言語処理タスクに使用できるGPT - 2ベースの言語モデルです。文章生成や質問応答などのタスクに適用可能です。

🔧 技術詳細

モデルアーキテクチャ

24層、隠れ層のサイズが1024のTransformerベースの言語モデルです。

学習

このモデルは、Japanese CC - 100とJapanese Wikipediaを使用して学習されました。8台のV100 GPUで約30日間、従来の言語モデリングの目的関数を最適化するように学習されました。同じデータから選択された検証セットでは、パープレキシティが約18に達します。

トークン化

このモデルは、sentencepieceベースのトークナイザーを使用しています。語彙は、公式のsentencepiece学習スクリプトを使用して日本語Wikipediaで学習されました。

📄 ライセンス

このモデルは、The MIT licenseの下で提供されています。

📚 ドキュメント

公開日

2021年4月7日 (更新: 2021年8月25日)

引用方法

@misc{rinna-japanese-gpt2-medium,
    title = {rinna/japanese-gpt2-medium},
    author = {Zhao, Tianyu and Sawada, Kei},
    url = {https://huggingface.co/rinna/japanese-gpt2-medium}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}