🚀 ke-t5-baseモデルカード
ke-t5-baseは、自然言語処理タスクに使用できるテキスト生成モデルです。T5モデルをベースに開発され、多言語に対応しています。
🚀 クイックスタート
以下のコードを使って、モデルを使用することができます。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("KETI-AIR/ke-t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("KETI-AIR/ke-t5-base")
詳細な使用例については、Hugging Face T5のドキュメントと、モデル開発者によって作成されたColab Notebookを参照してください。
✨ 主な機能
モデル概要
Text-To-Text Transfer Transformer (T5)の開発者は、こちらで以下のように述べています。
T5では、すべての自然言語処理タスクを統一されたテキスト-to-テキスト形式に再構築することを提案しています。この形式では、入力と出力は常にテキスト文字列であり、クラスラベルまたは入力のスパンのみを出力できるBERTスタイルのモデルとは対照的です。私たちのテキスト-to-テキストフレームワークにより、任意の自然言語処理タスクで同じモデル、損失関数、およびハイパーパラメータを使用することができます。
T5-Baseは、2億2000万のパラメータを持つチェックポイントです。
モデル情報
属性 |
详情 |
開発者 |
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu |
共有元 |
韓国電子技術研究所人工知能研究センター |
モデルタイプ |
テキスト生成 |
言語 |
詳細情報が必要 |
ライセンス |
詳細情報が必要 |
関連モデル |
親モデル: T5 |
詳細情報リソース |
GitHubリポジトリ、KE-T5 Githubリポジトリ、論文、関連論文、ブログ記事 |
📦 インストール
コード例から、以下のようにモデルをインストールできます。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("KETI-AIR/ke-t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("KETI-AIR/ke-t5-base")
📚 ドキュメント
直接利用
開発者はブログ記事で、このモデルについて以下のように述べています。
私たちのテキスト-to-テキストフレームワークにより、機械翻訳、文書要約、質問応答、および分類タスク(例:感情分析)を含む任意の自然言語処理タスクで同じモデル、損失関数、およびハイパーパラメータを使用することができます。数値そのものではなく数値の文字列表現を予測するようにモデルを訓練することで、回帰タスクにもT5を適用することができます。
スコープ外の利用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。
バイアス、リスク、および制限
多くの研究が、言語モデルのバイアスと公平性の問題を調査しています(例:Sheng et al. (2021)およびBender et al. (2021)を参照)。このモデルによって生成された予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接および下流のユーザー)は、このモデルのリスク、バイアス、および制限を認識する必要があります。さらなる推奨事項については、詳細情報が必要です。
訓練データ
このモデルは、Colossal Clean Crawled Corpus (C4)で事前学習されています。このコーパスは、T5と同じ研究論文の文脈で開発および公開されました。
このモデルは、教師なしタスク(1.)と教師ありタスク(2.)のマルチタスク混合で事前学習されています。
詳細情報については、t5-baseモデルカードを参照してください。
評価
- テストデータ:開発者は、24のタスクでモデルを評価しました。詳細については、研究論文を参照してください。
- 結果:T5-Baseの完全な結果については、研究論文の表14を参照してください。
📄 ライセンス
このモデルのライセンスは、Apache-2.0です。
引用
BibTeX:
@inproceedings{kim-etal-2021-model-cross,
title = "A Model of Cross-Lingual Knowledge-Grounded Response Generation for Open-Domain Dialogue Systems",
author = "Kim, San and
Jang, Jin Yea and
Jung, Minyoung and
Shin, Saim",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-emnlp.33",
doi = "10.18653/v1/2021.findings-emnlp.33",
pages = "352--365",
abstract = "Research on open-domain dialogue systems that allow free topics is challenging in the field of natural language processing (NLP). The performance of the dialogue system has been improved recently by the method utilizing dialogue-related knowledge; however, non-English dialogue systems suffer from reproducing the performance of English dialogue systems because securing knowledge in the same language with the dialogue system is relatively difficult. Through experiments with a Korean dialogue system, this paper proves that the performance of a non-English dialogue system can be improved by utilizing English knowledge, highlighting the system uses cross-lingual knowledge. For the experiments, we 1) constructed a Korean version of the Wizard of Wikipedia dataset, 2) built Korean-English T5 (KE-T5), a language model pre-trained with Korean and English corpus, and 3) developed a knowledge-grounded Korean dialogue model based on KE-T5. We observed the performance improvement in the open-domain Korean dialogue model even only English knowledge was given. The experimental results showed that the knowledge inherent in cross-lingual language models can be helpful for generating responses in open dialogue systems.",
}
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA:
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.