gpt-fr-cased-baseオープンソースフランス語GPTモデル - 大規模コーパスに基づくトレーニングでフランス語アプリケーションをサポート

ホーム

Gpt Fr Cased Base

asiによって開発

GPT-frはQuantmetryと形式言語学研究所(LLF)によって開発されたフランス語GPTモデルで、大規模で多様なフランス語コーパスでトレーニングされています。

大規模言語モデルフランス語オープンソースライセンス:Apache-2.0 #フランス語テキスト生成 #マルチタスク適応 #高パラメータモデル

ダウンロード数 755

リリース時間 : 3/2/2022

モデル概要

これはTransformerアーキテクチャに基づくフランス語言語モデルで、テキスト生成、テキスト分類、要約生成などの自然言語処理タスクに使用できます。

モデル特徴

フランス語最適化

フランス語の言語特性に特化してトレーニングおよび最適化されています

マルチタスク能力

テキスト生成、分類、要約など様々なNLPタスクをサポート

大規模トレーニング

ウィキペディア、OpenSubtitleなどのデータソースを含む大規模で多様なフランス語コーパスでトレーニング

モデル能力

フランス語テキスト生成

テキスト分類

自動要約

質問応答システム

使用事例

コンテンツ生成

記事の続き作成

与えられた冒頭から一貫性のあるフランス語記事を生成

テキスト分類

製品レビュー分類

書籍、DVD、音楽レビューを分類

精度91.4%-92.6%

要約生成

ニュース要約

フランス語ニュース記事の短い要約を生成

ROUGE-1スコア16.6

🚀 GPT-fr

GPT-fr は、Quantmetry と Laboratoire de Linguistique Formelle (LLF) によって開発された、フランス語用のGPTモデルです。非常に大規模かつ多様なフランス語コーパスで学習を行い、以下の設定の重みを公開しています。

✨ 主な機能

このモデルは、言語生成タスクに利用できます。また、多くのタスクを自然言語で直接出力するように設定することができ、自動要約や質問応答などのタスクに使用できます。
学術的および産業的なアプリケーションの両方に利用できることを期待しています。

📦 インストール

このモデルは、素晴らしい Transformers ライブラリを通じて使用できます。

💻 使用例

基本的な使用法

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Load pretrained model and tokenizer
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# Generate a sample of text
model.eval()
input_sentence = "Longtemps je me suis couchÃ© de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

📚 ドキュメント

モデルの説明

GPT-fr は、フランス語用のGPTモデルです。非常に大規模かつ多様なフランス語コーパスで学習を行い、以下の設定の重みを公開しています。

モデル名	レイヤー数	アテンションヘッド数	埋め込み次元数	総パラメータ数
`gpt-fr-cased-small`	12	12	768	124 M
`gpt-fr-cased-base`	24	14	1,792	1,017 B

想定される用途と制限

このモデルは、言語生成タスクに利用できます。また、多くのタスクを自然言語で直接出力するように設定することができ、自動要約や質問応答などのタスクに使用できます。学術的および産業的なアプリケーションの両方に利用できることを期待しています。

制限とバイアス

大規模言語モデルは、事前学習データセットに含まれるバイアス（性別差別や攻撃的な内容の生成など）を再現する傾向があります。過度に露骨な材料への露出を制限するために、事前にソースを慎重に選択しています。このプロセスは、手動での恣意的なフィルタリングを行わずに、モデルからの攻撃的な内容の生成を制限することを目的としています。ただし、データに含まれる一部の社会的バイアスがモデルに反映される可能性があります。例えば、性別平等に関して、「Ma femme/Mon mari vient d'obtenir un nouveau poste en tant _______」という文のシーケンスを生成しました。k=50のトップkランダムサンプリング戦略を使用し、最初の句読点要素で停止しました。妻に対して生成された職種は 'que professeur de franÃ§ais.' であり、夫に対して生成された職種は 'que chef de projet.' です。このような影響を定性的および定量的により適切に評価するためのフィードバックをいただけると幸いです。

学習データ

この生成モデルを学習するために、専用のコーパスを作成しました。実際、このモデルは1,024の固定長コンテキストサイズを使用しており、学習には長いドキュメントが必要です。既存のコーパスを集約しました：Wikipedia、OpenSubtitle (Tiedemann, 2012)、Gutenberg、および Common Crawl (Li et al., 2019)。コーパスはフィルタリングされ、文に分割されます。その後、連続する文は、ドキュメントあたり1,024トークンの制限内で連結されます。

学習手順

このモデルは、新しいCNRS（フランス国立科学研究センター）の Jean Zay スーパーコンピュータで事前学習を行いました。Tesla V-100ハードウェア（TDP 300W）で合計140時間の計算を行いました。学習は、8つのGPUを搭載した4つのコンピュートノードに分散されました。各マイクロバッチを計算ユニットに分割するために、データ並列化を使用しました。Lacoste et al., (2019) で提示された Machine Learning Impact calculator を使用して、総排出量を580.61 kgCO2eqと推定しました。

評価結果

GPT-fr は、フランス語用の専用言語モデル評価ベンチマークとともに提供されています。英語の WikiText ベンチマークに沿って、Wikipediaの検証済みの良質なおよび注目すべき記事のセットから7000万以上のトークンを収集しました。モデルは、テストセットで 12.9 のゼロショットパープレキシティを達成しています。

BibTeXエントリと引用情報

HuggingFaceのTransformersライブラリによってホストされているモデルとともに、gitリポジトリを管理しています。科学出版物や産業アプリケーションで GPT-fr を使用する場合は、以下の論文を引用してください。

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
  AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

参考文献

JÃ¶rg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218

Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad: Findings of the First Shared Task on Machine Translation Robustness. WMT (2) 2019: 91-102

Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. CoRR abs/1909.08053 (2019)

Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres: Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700 (2019)