gpt2-large-japaneseオープンソース日本語モデル - 無料で高品質の日本語テキスト生成タスクをサポート

ホーム

Gpt2 Large Japanese

abejaによって開発

ABEJA社がトレーニングした日本語大規模GPT-2モデルで、日本語テキスト生成タスクをサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #日本語テキスト生成 #大規模言語モデル #日本語ライティング支援

ダウンロード数 960

リリース時間 : 8/29/2022

モデル概要

これはGPT-2アーキテクチャに基づく大規模日本語言語モデルで、特に日本語テキスト生成タスク向けに最適化されています。

モデル特徴

日本語専用モデル

日本語テキストに特化してトレーニングと最適化を実施

多様な生成

様々なサンプリング戦略による多様なテキスト生成をサポート

豊富な事前学習データ

日本語CC-100、日本語ウィキペディア、日本語OSCARなど複数の高品質データセットを使用

モデル能力

日本語テキスト生成

文脈理解

多様なテキストサンプリング

使用事例

コンテンツ作成

記事の続き作成

与えられた冒頭部分から完全な記事を続きとして生成

流暢で一貫性のある日本語テキストを生成

AIライティング支援

クリエイティブライティング

作家のアイデア構想とコンテンツ生成を支援

多様な執筆アイデアを提供

🚀 gpt2-large-japanese

このリポジトリは、大規模な日本語GPT - 2モデルを提供します。このモデルはABEJA, Incによって学習されました。

🚀 クイックスタート

このモデルを使用するための基本的な手順を説明します。

✨ 主な機能

大規模な日本語GPT - 2モデルを提供します。
文章生成に使用できます。

📦 インストール

まず、sentencepieceをインストールします。2022年8月の最新バージョンでの動作を確認しています。（必要なければスキップしてください。）

pip install sentencepiece

💻 使用例

基本的な使用法

テキスト生成のパイプラインを使用する場合：

from transformers import pipeline

generator = pipeline("text-generation", model="abeja/gpt2-large-japanese")
generated = generator(
    "人とAIが協調するためには、",
    max_length=30,
    do_sample=True,
    num_return_sequences=3,
    top_p=0.95,
    top_k=50,
    pad_token_id=3
)
print(*generated, sep="\n")

"""
[out]
{'generated_text': '人とAIが協調するためには、社会的なルールをきちんと理解して、人と共存し、協働して生きていくのが重要だという。'}
{'generated_text': '人とAIが協調するためには、それぞれが人間性を持ち、またその人間性から生まれるインタラクションを調整しなければならないことはいうまで'}
{'generated_text': '人とAIが協調するためには、AIが判断すべきことを人間が決める必要がある。人工知能の目的は、人間の知性、記憶、理解、'}
"""

高度な使用法

PyTorchを使用する場合：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("abeja/gpt2-large-japanese")
model = AutoModelForCausalLM.from_pretrained("abeja/gpt2-large-japanese")

input_text = "人とAIが協調するためには、"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

gen_tokens = model.generate(
    input_ids,
    max_length=100,
    do_sample=True,
    num_return_sequences=3,
    top_p=0.95,
    top_k=50,
    pad_token_id=tokenizer.pad_token_id
)
for gen_text in tokenizer.batch_decode(gen_tokens, skip_special_tokens=True):
    print(gen_text)

TensorFlowを使用する場合：

from transformers import AutoTokenizer, TFAutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("abeja/gpt2-large-japanese")
model = TFAutoModelForCausalLM.from_pretrained("abeja/gpt2-large-japanese", from_pt=True)

input_text = "人とAIが協調するためには、"
input_ids = tokenizer.encode(input_text, return_tensors="tf")

gen_tokens = model.generate(
    input_ids,
    max_length=100,
    do_sample=True,
    num_return_sequences=3,
    top_p=0.95,
    top_k=50,
    pad_token_id=tokenizer.pad_token_id
)
for gen_text in tokenizer.batch_decode(gen_tokens, skip_special_tokens=True):
    print(gen_text)