🚀 Varta-T5
Varta-T5は、14のインド諸語(アッサム語、ボージュプリー語、ベンガル語、グジャラート語、ヒンディー語、カンナダ語、マラヤーラム語、マラーティー語、ネパール語、オリヤー語、パンジャーブ語、タミル語、テルグ語、ウルドゥー語)と英語を対象とした、Vartaのfull
トレーニングセットで事前学習されたモデルです。事前学習の目的として、スパン破損とギャップ文生成を使用しています。
Vartaは、インド諸語用の大規模ニュースコーパスで、14の異なるインド諸語(および英語)の4180万件のニュース記事を含んでおり、様々な高品質なソースから収集されています。
このデータセットとモデルは、この論文で紹介されています。コードはこのリポジトリで公開されています。
🚀 クイックスタート
このモデルは、因果言語モデリングに使用できますが、主に下流タスクでの微調整を目的としています。
テキスト-to-テキストフレームワークにより、機械翻訳、文書要約、質問応答などのテキスト生成タスクや、感情分析などの分類タスクを含む、あらゆるNLPタスクに同じモデルを使用できます。
✨ 主な機能
バイアス、リスク、および制限事項
この研究は主に、多くが低リソース言語であるインド諸語用の新しい多言語データセットの構築に専念しています。データ収集の際には、倫理的な問題を引き起こす可能性のあるいくつかの制限に直面しています。重要なものの一部を以下に示します。
- 当社のデータセットには、DailyHuntのパートナー出版社によって書かれた記事のみが含まれています。これは、特定の物語やイデオロギーに偏り、データセットの代表性と多様性に影響を与える可能性があります。
- もう1つの制限は、Vartaに含まれる言語です。インドで公式地位を持つ22の言語のうち、当社のデータセットには13の言語しか含まれていません。少なくとも1万人が話す122の主要言語と、非常に低リソースな159の他の言語があります。これらの言語はいずれも当社のデータセットに含まれていません。
- 当社は、Vartaに対して何らかのバイアス除去を行っていません。これは、データセットに社会的および文化的バイアスが存在する可能性があり、それがモデルの公平性と包括性に悪影響を与える可能性があることを意味します。
モデルの使い方
このモデルを直接スパン埋めに使用することができます。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rahular/varta-t5")
model = AutoModelForSeq2SeqLM.from_pretrained("rahular/varta-t5")
📚 ドキュメント
トレーニングデータ
Vartaには、14のインド諸語と英語の4180万件の高品質ニュース記事が含まれています。3450万件の非英語の記事と見出しのペアを持ち、この種の最大の文書レベルのデータセットです。
事前学習
- 事前学習の目的として、スパン破損とギャップ文生成を使用しています。
- 事前学習中は、両方の目的を均一にサンプリングします。
- スパン破損は、ランダムなトークンをマスクする代わりに、平均長が3のトークンのスパンをマスクする点を除いて、マスク言語モデリングに似ています。
- ギャップ文予測では、スパンではなく文全体がマスクされます。私たちは元の研究に従い、文の
重要性
に基づいて文を選択します。
- 文と文書の間のRouge-1 F1スコアを重要性の代理として使用します。
- スパン破損とギャップ文生成のマスク率として、それぞれ0.15と0.2を使用します。
Varta内の言語間のデータサイズは、1.5K(ボージュプリー語)から1440万件の記事(ヒンディー語)までさまざまなため、必要に応じてデータをアップサンプリングするために標準的な温度ベースのサンプリングを使用します。
- 私たちは、12のエンコーダとデコーダ層を持つT5 1.1ベースアーキテクチャを使用してVarta-T5を事前学習します。
- エンコーダとデコーダの最大シーケンス長はそれぞれ512と256でトレーニングします。
- 768の埋め込み次元と2048のフィードフォワード幅を持つ12のアテンションヘッドを使用します。
- 128KのSentencePiece語彙を使用します。
- 合計で、モデルは3.95億個のパラメータを持っています。
- モデルは、10Kステップのウォームアップを持つAdafactorオプティマイザでトレーニングされます。
- 初期学習率として1e-3を使用し、200万ステップに達するまで平方根減衰を使用します。
- 有効バッチサイズ256を使用し、TPU v3-8チップでモデルをトレーニングします。
- モデルのトレーニングには11日かかります。
評価結果
詳細は論文を参照してください。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
引用
@misc{aralikatte2023varta,
title={V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages},
author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung},
year={2023},
eprint={2305.05858},
archivePrefix={arXiv},
primaryClass={cs.CL}
}