it5-smallオープンソースイタリア語処理モデル - 無料でデプロイ可能、効率的なシーケンスツーシーケンス変換

ホーム

It5 Small

gsartiによって開発

IT5は、イタリア語に対して大規模なシーケンス-to-シーケンスTransformerモデルの事前学習を行った最初のモデルファミリーで、元のT5モデルの方法に従っています。

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #イタリア語生成 #シーケンス-to-シーケンス #小規模事前学習

ダウンロード数 220

リリース時間 : 3/2/2022

モデル概要

このモデルは、イタリア語用のシーケンス-to-シーケンスTransformerモデルで、主にテキスト理解と生成タスクに使用され、下流タスクで微調整する必要があります。

モデル特徴

イタリア語最適化

イタリア語に特化して大規模な事前学習を行い、イタリア語のテキスト処理能力を最適化しました。

T5アーキテクチャに基づく

改良されたT5-v1.1小型アーキテクチャを採用し、ゲート付きgelu活性化関数を使用しています。

大規模な学習データ

クリーニングされたイタリア語のmC4コーパス（約410億語）を使用して学習しました。

モデル能力

イタリア語テキスト理解

イタリア語テキスト生成

シーケンス-to-シーケンスタスク処理

使用事例

自然言語処理

質問応答システム

イタリア語の質問応答システムの構築に使用できます。

下流タスクで微調整する必要があります。

テキスト要約

イタリア語のテキスト要約タスクに使用できます。

下流タスクで微調整する必要があります。

🚀 イタリア語T5小モデル🇮🇹

イタリア語T5（IT5）モデルファミリーは、イタリア語向けに大規模なシーケンスツーシーケンスTransformerモデルの事前学習を行う最初の試みで、元の T5モデルの手法を採用しています。このモデルはイタリア語関連のテキスト処理タスクを解決でき、イタリア語の自然言語処理に有効なツールを提供します。

🚀 クイックスタート

このモデルは、Gabriele Sarti と Malvina Nissim によって発起されたプロジェクト "IT5: Text-to-Text Pretraining for Italian Language Understanding and Generation" の一部で、Huggingface の支援を受け、Googleの TPU Research Cloud からTPUの使用が提供されています。すべてのトレーニングはGoogle Cloudの単一のTPU3v8 - VMマシンで行われまし。トレーニングプロセスの概要は、リポジトリのTensorboardタブを参照できます。

推論ウィジェットは、このモデルが実際に機能するためには下流タスクで特定のシーケンスツーシーケンスの微調整が必要であるため、無効にされています。it5 組織内のモデルは、このモデルを様々な下流タスクで微調整した例を提供しています。

✨ 主な機能

モデルバリエーション

このリポジトリには、モデルの base バージョンのチェックポイントが含まれています。このモデルは 🤗 Datasets と google/t5 - v1_1 - small の改良構成を使用し、深度クリーニングされたイタリア語mC4コーパス（約410億語、約275GB）で1エポック（1050000ステップ）トレーニングされています。トレーニングプロセスは [Github](https://github.com/gsarti/t5 - flax - gcp) で確認できます。

以下の表は、利用可能なすべてのモデルのパラメータをまとめたものです。

プロパティ	`it5-small`（このモデル）	`it5-base`	`it5-large`	`it5-base-oscar`
`データセット`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`oscar/unshuffled_deduplicated_it`
`アーキテクチャ`	`google/t5-v1_1-small`	`google/t5-v1_1-base`	`google/t5-v1_1-large`	`t5-base`
`学習率`	5e - 3	5e - 3	5e - 3	1e - 2
`ステップ数`	1050000	1050000	2100000	258000
`トレーニング時間`	36時間	101時間	370時間	98時間
`フィードフォワード投影`	`gated-gelu`	`gated-gelu`	`gated-gelu`	`relu`
`埋め込みのバインディング`	`false`	`false`	`false`	`true`
`オプティマイザ`	adafactor	adafactor	adafactor	adafactor
`最大シーケンス長`	512	512	512	512
`デバイスごとのバッチサイズ`	16	16	8	16
`総バッチサイズ`	128	128	64	128
`重み減衰`	1e - 3	1e - 3	1e - 2	1e - 3
`検証セット分割サイズ`	15000個のサンプル	15000個のサンプル	15000個のサンプル	15000個のサンプル

it5-base-oscar のトレーニング時間が長いのは、トレーニングスクリプトのバグが原因です。

個々のモデルのパラメータリストについては、それぞれのリポジトリの config.json ファイルを参照してください。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("gsarti/it5-small")
model = AutoModelForSeq2SeqLM.from_pretrained("gsarti/it5-small")

注意：このモデルを使用するには、下流のシーケンスツーシーケンスタスクで微調整する必要があります。例はこちらを参照してください。

高度な使用法

FlaxとTensorflowバージョンのモデルも利用可能です。

from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration

model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-small")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-small")

🔧 技術詳細

IT5モデルはウェブから収集したコーパスでトレーニングされているため、使用するとデータに含まれるバイアスを再現し拡大する可能性があり、人種や性別の固定観念や陰謀論などの潜在的に有害な内容が生成されることがあります。したがって、これらのバイアスに関する研究が奨励され、理想的には、このモデルの使用は研究目的でユーザーに公開されないプロジェクトに限定するべきです。

📄 ライセンス

このモデルは apache - 2.0 ライセンスで提供されています。

モデルメンテナ

このモデルの使用中に問題が発生した場合や更新が必要な場合は、gabriele.sarti996@gmail.com までご連絡ください。

📚 ドキュメント

引用情報

@inproceedings{sarti-nissim-2024-it5-text,
    title = "{IT}5: Text-to-text Pretraining for {I}talian Language Understanding and Generation",
    author = "Sarti, Gabriele  and
      Nissim, Malvina",
    editor = "Calzolari, Nicoletta  and
      Kan, Min-Yen  and
      Hoste, Veronique  and
      Lenci, Alessandro  and
      Sakti, Sakriani  and
      Xue, Nianwen",
    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
    month = may,
    year = "2024",
    address = "Torino, Italia",
    publisher = "ELRA and ICCL",
    url = "https://aclanthology.org/2024.lrec-main.823",
    pages = "9422--9433",
}