mGPTオープンソース多言語生成モデル - 101言語のテキスト生成を無料でサポート

ホーム

Mgpt

THUMTによって開発

mGPTはmC4データセットで事前学習された多言語生成モデルで、101言語をサポートし、GPT-2に似たTransformerアーキテクチャを採用しています。

大規模言語モデル

Transformers

#多言語テキスト生成 #101言語サポート #教師なし事前学習

ダウンロード数 147

リリース時間 : 3/2/2022

モデル概要

mGPTはTransformerアーキテクチャに基づく多言語生成モデルで、101言語のmC4データセットで因果言語モデリング目標を用いて事前学習されています。テキスト生成やプロンプトベースの下流タスク適応に適しています。

モデル特徴

多言語サポート

101言語をカバーする事前学習で、幅広い言語対応能力を有する

教師なし事前学習

生のテキストのみを使用して学習し、人手による注釈データを必要としない

共有トークナイザー

mT5と同じトークナイザーと語彙を使用し、複数モデルの連携が容易

モデル能力

多言語テキスト生成

プロンプトベースタスク適応

長文生成（最大1024トークン）

使用事例

テキスト生成

多言語コンテンツ作成

異なる言語で一貫性のあるテキストコンテンツを生成

下流タスク適応

プロンプトベースタスク実行

プロンプト設計により様々なNLPタスクに適応

🚀 mGPT

mGPTは、因果言語モデリングの目的でmC4データセットを使用して事前学習されています。このモデルは、この論文で紹介され、このページで最初に公開されました。

🚀 クイックスタート

mGPTは、101以上の言語をカバーする大量の多言語データで事前学習されたTransformerベースのモデルです。GPT - 2と同様に、人間によるラベリングなしで生テキストのみを使用して事前学習されています。mT5モデルと同じトークン化と語彙を使用しています。

✨ 主な機能

生のモデルを使用してテキスト生成を行うことができます。
プロンプトを使用して下流タスクに適応させることができます。

📦 インストール

このセクションではインストールに関する具体的な手順が提供されていないため、スキップします。

💻 使用例

基本的な使用法

from transformers import MT5Tokenizer, GPT2LMHeadModel, TextGenerationPipeline

tokenizer = MT5Tokenizer.from_pretrained("THUMT/mGPT")
model = GPT2LMHeadModel.from_pretrained("THUMT/mGPT")

pipeline = TextGenerationPipeline(model=model, tokenizer=tokenizer)
text = "Replace me by any text you'd like."
text = pipeline(text, do_sample=True,  max_length=1024)[0]["generated_text"]

📚 ドキュメント

前処理

テキストはsentencepieceを使用してトークン化され、語彙サイズは250,100です。入力は1,024の連続したトークンのシーケンスです。文書内の行を区切るために<extra_id_0>を使用しています。

🔧 技術詳細

このセクションでは、具体的な技術的な説明が十分に提供されていないため、スキップします。

📄 ライセンス

このセクションではライセンス情報が提供されていないため、スキップします。

📚 引用情報

@misc{tan2021msp,
    title={MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better Translators},
    author={Zhixing Tan and Xiangwen Zhang and Shuo Wang and Yang Liu},
    year={2021},
    eprint={2110.06609},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}