it5-largeオープンソースモデル - イタリア語処理をサポートし、無料でシーケンス間変換を実現する

ホーム

It5 Large

gsartiによって開発

IT5は、イタリア語向けに大規模事前学習された最初のシーケンス・ツー・シーケンスTransformerモデルファミリーで、T5モデルの手法に従っています。

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #イタリア語生成 #シーケンス・ツー・シーケンス #大規模事前学習

ダウンロード数 37

リリース時間 : 3/2/2022

モデル概要

IT5モデルファミリーは、イタリア語専用に設計されたシーケンス・ツー・シーケンスTransformerモデルで、さまざまな自然言語理解および生成タスクに適しています。

モデル特徴

イタリア語専用事前学習

イタリア語向けに大規模事前学習された最初のシーケンス・ツー・シーケンスTransformerモデル

改良されたT5アーキテクチャ

google/t5-v1_1-largeを基に改良された設定で、ゲート付きGELU活性化関数を使用

大規模トレーニングデータ

クリーンアップされたイタリア語mC4コーパス（約410億語）でトレーニング

マルチフレームワークサポート

PyTorch、Flax、TensorFlowバージョンを提供

モデル能力

イタリア語テキスト理解

イタリア語テキスト生成

シーケンス・ツー・シーケンスタスク処理

使用事例

自然言語処理

イタリア語テキスト要約

イタリア語テキストの簡潔な要約を生成

イタリア語機械翻訳

イタリア語と他の言語間の翻訳タスクをサポート

イタリア語質問応答システム

イタリア語の質問応答アプリケーションを構築

🚀 イタリア語T5 Large 🇮🇹

IT5モデルファミリーは、元のT5モデルが採用したアプローチに従い、イタリア語用の大規模シーケンス-to-シーケンストランスフォーマーモデルを事前学習する最初の試みです。

このモデルは、Gabriele SartiとMalvina Nissimによる"IT5: Text-to-Text Pretraining for Italian Language Understanding and Generation"（公開予定）というプロジェクトの一環として公開されています。このプロジェクトはHuggingfaceの支援を受け、GoogleのTPU Research CloudによるTPU使用のスポンサーシップを得ています。すべての学習はGoogle Cloud上の単一のTPU3v8-VMマシンで行われまし。学習プロセスの概要については、リポジトリのTensorboardタブを参照してください。

推論ウィジェットは、モデルが実際に役立つためには下流タスクでタスク固有のseq2seq微調整が必要であるため、無効になっています。

✨ 主な機能

📦 インストール

このセクションではインストールに関する具体的な手順が記載されていません。

💻 使用例

基本的な使用法

from transformers import AutoTokenzier, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("gsarti/it5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("gsarti/it5-large")

高度な使用法

from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration

model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-large")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-large")

📚 ドキュメント

モデルのバリエーション

このリポジトリには、モデルのbaseバージョンのチェックポイントが含まれています。モデルは、Thoroughly Cleaned Italian mC4 Corpus（約410億語、約275GB）を使用して1エポック（105万ステップ）学習され、🤗 Datasetsとgoogle/t5-v1_1-largeの改良された設定が用いられました。学習手順はGithubで公開されています。

以下の表は、利用可能なすべてのモデルのパラメータをまとめたものです。

プロパティ	詳細
モデルタイプ	IT5シリーズ（`it5-small`, `it5-base`, `it5-large`, `it5-base-oscar`）
学習データ	各モデルに応じて異なります（`gsarti/clean_mc4_it` または `oscar/unshuffled_deduplicated_it`）

	`it5-small`	`it5-base`	`it5-large` (このモデル)	`it5-base-oscar`
`データセット`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`oscar/unshuffled_deduplicated_it`
`アーキテクチャ`	`google/t5-v1_1-small`	`google/t5-v1_1-base`	`google/t5-v1_1-large`	`t5-base`
`学習率`	5e-3	5e-3	5e-3	1e-2
`ステップ数`	1,050,000	1,050,000	2,100,000	258,000
`学習時間`	36時間	101時間	370時間	98時間
`FF投影`	`gated-gelu`	`gated-gelu`	`gated-gelu`	`relu`
`埋め込みの結合`	`false`	`false`	`false`	`true`
`オプティマイザ`	adafactor	adafactor	adafactor	adafactor
`最大シーケンス長`	512	512	512	512
`デバイスごとのバッチサイズ`	16	16	8	16
`総バッチサイズ`	128	128	64	128
`重み減衰`	1e-3	1e-3	1e-2	1e-3
`検証分割サイズ`	15Kサンプル	15Kサンプル	15Kサンプル	15Kサンプル

it5-base-oscarの学習時間が長かったのは、学習スクリプトにバグがあったためです。

個々のモデルパラメータのリストについては、それぞれのリポジトリのconfig.jsonファイルを参照してください。

🔧 技術詳細

IT5モデルが学習されたウェブスクレイピングされたコーパスの性質上、その使用によってデータに事前に存在するバイアスが再現および拡大される可能性があり、人種や性別のステレオタイプや陰謀論的な見解などの潜在的に有害なコンテンツが生じる可能性があります。このため、このようなバイアスの研究が明確に奨励されており、理想的にはモデルの使用は研究目的でユーザーに直接公開されない取り組みに限定されるべきです。

📄 ライセンス

このモデルは、apache-2.0ライセンスの下で公開されています。

モデル管理者

このモデルに関する問題や更新については、gabriele.sarti996@gmail.comに連絡してください。

引用情報

@inproceedings{sarti-nissim-2024-it5-text,
    title = "{IT}5: Text-to-text Pretraining for {I}talian Language Understanding and Generation",
    author = "Sarti, Gabriele  and
      Nissim, Malvina",
    editor = "Calzolari, Nicoletta  and
      Kan, Min-Yen  and
      Hoste, Veronique  and
      Lenci, Alessandro  and
      Sakti, Sakriani  and
      Xue, Nianwen",
    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
    month = may,
    year = "2024",
    address = "Torino, Italia",
    publisher = "ELRA and ICCL",
    url = "https://aclanthology.org/2024.lrec-main.823",
    pages = "9422--9433",
    abstract = "We introduce IT5, the first family of encoder-decoder transformer models pretrained specifically on Italian. We document and perform a thorough cleaning procedure for a large Italian corpus and use it to pretrain four IT5 model sizes. We then introduce the ItaGen benchmark, which includes a broad range of natural language understanding and generation tasks for Italian, and use it to evaluate the performance of IT5 models and multilingual baselines. We find monolingual IT5 models to provide the best scale-to-performance ratio across tested models, consistently outperforming their multilingual counterparts and setting a new state-of-the-art for Italian language generation.",
}