it5-base-oscarオープンソースモデル - イタリア語処理を支援するシーケンス間翻訳の強力なツール

ホーム

It5 Base Oscar

gsartiによって開発

イタリア語向けに大規模なシーケンス・ツー・シーケンスTransformerモデルの事前学習を初めて実施したプロジェクトで、OSCARコーパスを用いて学習

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #イタリア語事前学習 #シーケンス・ツー・シーケンス #テキスト生成

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルはIT5モデルファミリーのベースバージョンで、イタリア語向けに特別に事前学習されており、T5アーキテクチャを採用し、様々なシーケンス・ツー・シーケンスタスクに適用可能

モデル特徴

イタリア語専用事前学習

イタリア語向けに大規模な事前学習を初めて実施したシーケンス・ツー・シーケンスTransformerモデル

OSCARコーパスベース

OSCARコーパスのイタリア語部分を使用して学習

改良版トークナイザー

mC4イタリア語部分で学習されたSentencePieceUnigramTokenizerを採用

TPU最適化学習

Google CloudのTPU3v8-VMマシンで学習を完了し、Google TPU研究クラウドの支援を受けた

モデル能力

イタリア語テキスト理解

イタリア語テキスト生成

シーケンス・ツー・シーケンス変換

使用事例

自然言語処理

自然言語推論

前提-仮説関係の判断など、自然言語推論タスクに使用可能

微調整モデルgsarti/it5-base-nliを参照

テキスト要約

イタリア語テキストの自動要約生成に使用可能

機械翻訳

イタリア語関連の翻訳タスクに使用可能

🚀 イタリア語T5 Base (Oscar) 🇮🇹

このリポジトリには、以前は gsarti/t5-base-it として知られていたモデルが含まれています。

IT5 モデルファミリーは、オリジナルの T5モデルが採用したアプローチに従って、イタリア語用の大規模シーケンス-to-シーケンストランスフォーマーモデルを事前学習する最初の試みです。

このモデルは、Gabriele Sarti による "IT5: Large-Scale Text-to-Text Pretraining for Italian Language Understanding and Generation" （公開予定）プロジェクトの一部として、Huggingface の支援を受け、Googleの TPU Research Cloud によるTPU使用のスポンサーシップを得て公開されています。すべてのトレーニングは、Google Cloud上の単一のTPU3v8-VMマシンで行われました。トレーニングプロセスの概要については、リポジトリのTensorboardタブを参照してください。

推論ウィジェットは無効になっています。これは、モデルを実際に使用するには、下流タスクに対するタスク固有のseq2seqファインチューニングが必要だからです。モデル gsarti/it5-base-nli は、下流のNLIタスクでファインチューニングされたこのモデルの例を提供しています。

🚀 クイックスタート

モデルの使用方法

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")

注意: モデルを使用するには、下流のseq2seqタスクでファインチューニングする必要があります。例をこちらで確認できます。

FlaxとTensorflowバージョンのモデルも利用可能です。

from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration

model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")

✨ 主な機能

このリポジトリには、OSCARコーパスを使用して訓練された base バージョンのモデルのチェックポイントが含まれています。モデル t5-base の元の構成が採用されていますが、事前学習中のパラメータ dropout_rate は、t5-v1.1 の実装に従って 0 に設定されています（元は 0.1）。トークナイザーは、mC4 コーパスのイタリア語部分の最初の200万文で訓練された SentencePieceUnigramTokenizer です。Thoroughly Cleaned Italian mC4 Corpus （約410億単語、約275GB）で訓練された改良版のモデルも、gsarti/it5-base という名前で利用可能です。トレーニング手順は Github で公開されています。

モデルのバリエーション

以下の表は、利用可能なすべてのモデルのパラメータをまとめたものです。

項目	`it5-small`	`it5-base`	`it5-large`	`it5-base-oscar` (このモデル)
`dataset`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`oscar/unshuffled_deduplicated_it`
`architecture`	`google/t5-v1_1-small`	`google/t5-v1_1-base`	`google/t5-v1_1-large`	`t5-base`
`learning rate`	5e-3	5e-3	5e-3	1e-2
`steps`	1,050,000	1,050,000	2,100,000	258,000
`training time`	36時間	101時間	370時間	98時間
`ff projection`	`gated-gelu`	`gated-gelu`	`gated-gelu`	`relu`
`tie embeds`	`false`	`false`	`false`	`true`
`optimizer`	adafactor	adafactor	adafactor	adafactor
`max seq. length`	512	512	512	512
`per-device batch size`	16	16	8	16
`tot. batch size`	128	128	64	128
`weigth decay`	1e-3	1e-3	1e-2	1e-3
`validation split size`	15,000例	15,000例	15,000例	15,000例

it5-base-oscar のトレーニング時間が長かったのは、トレーニングスクリプトのバグが原因でした。

個々のモデルパラメータのリストについては、それぞれのリポジトリの config.json ファイルを参照してください。

🔧 技術詳細

IT5モデルはウェブスクレイピングされたコーパスで訓練されているため、その使用により、データに事前に存在するバイアスが再現および拡大される可能性があります。これにより、人種や性別の固定観念や陰謀論的な見解など、潜在的に有害なコンテンツが生成される可能性があります。そのため、このようなバイアスの研究が明確に奨励されており、理想的にはモデルの使用は研究目的で、ユーザーに直接公開しない取り組みに限定すべきです。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で公開されています。

📚 クレジット

このモデルに関する問題や更新については、gabriele.sarti996@gmail.com までご連絡ください。

📚 引用情報

@article{sarti-nissim-2022-it5,
    title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
    author={Sarti, Gabriele and Nissim, Malvina},
    journal={ArXiv preprint 2203.03759},
    url={https://arxiv.org/abs/2203.03759},
    year={2022},
    month={mar}
}