Ke T5 Base
模型简介
模型特点
模型能力
使用案例
🚀 ke-t5-base模型卡
ke-t5-base是一个文本生成模型,它基于T5架构,可用于多种自然语言处理任务,如机器翻译、文档摘要、问答和分类等。该模型由Korea Electronics Technology Institute Artificial Intelligence Research Center共享。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("KETI-AIR/ke-t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("KETI-AIR/ke-t5-base")
更多示例请参阅 Hugging Face T5 文档和模型开发者创建的 Colab Notebook。
✨ 主要特性
- 统一文本到文本格式:T5模型将所有自然语言处理任务重构为统一的文本到文本格式,输入和输出始终是文本字符串,可使用相同的模型、损失函数和超参数处理各种NLP任务。
- 多语言支持:支持英语和韩语。
📚 详细文档
模型详情
模型描述
文本到文本转移变换器(T5)的开发者 写道:
借助T5,我们提出将所有NLP任务重构为统一的文本到文本格式,其中输入和输出始终是文本字符串,这与只能输出类标签或输入片段的BERT风格模型形成对比。我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数。
T5-Base是一个包含2.2亿参数的检查点。
- 开发者:Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。
- 共享者:Korea Electronics Technology Institute Artificial Intelligence Research Center
- 模型类型:文本生成
- 语言:英语、韩语
- 许可证:Apache-2.0
- 相关模型:
- 父模型:T5
- 更多信息资源:
使用方式
直接使用
开发者在 博客文章 中写道,该模型:
我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以通过训练T5预测数字的字符串表示而不是数字本身,将其应用于回归任务。
超出适用范围的使用
该模型不应用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng等人(2021) 和 Bender等人(2021))。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(直接用户和下游用户)应该了解该模型的风险、偏差和局限性。关于进一步的建议,还需要更多信息。
训练详情
训练数据
该模型在 Colossal Clean Crawled Corpus (C4) 上进行预训练,该语料库是在与T5相同的 研究论文 背景下开发和发布的。
该模型在 无监督(1.)和有监督任务(2.)的多任务混合 上进行预训练。
更多信息请参阅 t5-base模型卡。
训练过程
- 预处理:暂无更多信息。
- 速度、大小、时间:暂无更多信息。
评估
测试数据、因素和指标
- 测试数据:开发者在24个任务上对模型进行了评估,完整详情请参阅 研究论文。
- 因素:暂无更多信息。
- 指标:暂无更多信息。
结果
T5-Base的完整结果请参阅 研究论文 中的表14。
模型检查
暂无更多信息。
环境影响
可以使用 Lacoste等人(2019) 提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:Google Cloud TPU Pods
- 使用时长:暂无更多信息。
- 云服务提供商:GCP
- 计算区域:暂无更多信息。
- 碳排放:暂无更多信息。
技术规格(可选)
- 模型架构和目标:暂无更多信息。
- 计算基础设施:暂无更多信息。
- 硬件:暂无更多信息。
- 软件:暂无更多信息。
引用
BibTeX
@inproceedings{kim-etal-2021-model-cross,
title = "A Model of Cross-Lingual Knowledge-Grounded Response Generation for Open-Domain Dialogue Systems",
author = "Kim, San and
Jang, Jin Yea and
Jung, Minyoung and
Shin, Saim",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-emnlp.33",
doi = "10.18653/v1/2021.findings-emnlp.33",
pages = "352--365",
abstract = "Research on open-domain dialogue systems that allow free topics is challenging in the field of natural language processing (NLP). The performance of the dialogue system has been improved recently by the method utilizing dialogue-related knowledge; however, non-English dialogue systems suffer from reproducing the performance of English dialogue systems because securing knowledge in the same language with the dialogue system is relatively difficult. Through experiments with a Korean dialogue system, this paper proves that the performance of a non-English dialogue system can be improved by utilizing English knowledge, highlighting the system uses cross-lingual knowledge. For the experiments, we 1) constructed a Korean version of the Wizard of Wikipedia dataset, 2) built Korean-English T5 (KE-T5), a language model pre-trained with Korean and English corpus, and 3) developed a knowledge-grounded Korean dialogue model based on KE-T5. We observed the performance improvement in the open-domain Korean dialogue model even only English knowledge was given. The experimental results showed that the knowledge inherent in cross-lingual language models can be helpful for generating responses in open dialogue systems.",
}
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
术语表(可选)
暂无更多信息。
更多信息(可选)
暂无更多信息。
模型卡作者(可选)
Korea Electronics Technology Institute Artificial Intelligence Research Center与Ezi Ozoani和Hugging Face团队合作完成。
模型卡联系方式
暂无更多信息。
📄 许可证
该模型的许可证为Apache-2.0。



