🚀 Varta-T5
Varta-T5是一个预训练模型,它基于多语言新闻语料库进行训练,支持14种印度语言和英语。该模型可用于多种自然语言处理任务,为相关领域的研究和应用提供了有力支持。
🚀 快速开始
你可以直接使用此模型进行跨度填充。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rahular/varta-t5")
model = AutoModelForSeq2SeqLM.from_pretrained("rahular/varta-t5")
✨ 主要特性
- 多语言支持:在14种印度语言(阿萨姆语、博杰普尔语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和乌尔都语)以及英语上进行预训练。
- 广泛的任务适用性:适用于因果语言建模,并且可在下游任务上进行微调,可用于文本生成任务(如机器翻译、文档摘要、问答)和分类任务(如情感分析)。
📚 详细文档
模型描述
Varta-T5是在Varta的完整
训练集上进行预训练的模型,使用跨度损坏和间隙句子生成作为目标。Varta是一个用于印度语言的大规模新闻语料库,包含14种不同印度语言(以及英语)的4180万篇新闻文章,这些文章来自各种高质量来源。该数据集和模型在这篇论文中被介绍,代码在这个仓库中发布。
用途
你可以使用此模型进行因果语言建模,但它主要用于在下游任务上进行微调。文本到文本框架允许我们在任何自然语言处理任务中使用相同的模型,包括文本生成任务(例如,机器翻译、文档摘要、问答)和分类任务(例如,情感分析)。
偏差、风险和局限性
这项工作主要致力于为印度语言策划一个新的多语言数据集,其中许多是低资源语言。在数据收集过程中,我们面临一些可能导致伦理问题的限制,以下是一些重要的限制:
- 数据来源偏差:我们的数据集仅包含由DailyHunt的合作伙伴发布者撰写的文章,这可能导致对特定叙事或意识形态的偏差,从而影响数据集的代表性和多样性。
- 语言覆盖不全:在印度具有官方地位的22种语言中,我们的数据集仅涵盖了13种。有122种主要语言至少有10000人使用,还有159种其他极低资源语言,这些语言都未在我们的数据集中得到体现。
- 缺乏去偏处理:我们没有对Varta进行任何去偏处理,这意味着数据集中可能存在社会和文化偏差,这可能会对在其上训练的模型的公平性和包容性产生不利影响。
训练细节
训练数据
Varta包含14种印度语言和英语的4180万篇高质量新闻文章,拥有3450万对非英语文章 - 标题对,是同类中最大的文档级数据集。
预训练
- 训练目标:使用跨度损坏和间隙句子生成作为预训练目标,在预训练期间对这两个目标进行均匀采样。
- 跨度损坏:类似于掩码语言建模,但不是随机掩码标记,而是掩码平均长度为3的标记跨度。
- 间隙句子预测:掩码整个句子而不是跨度,我们遵循原始工作,根据句子的
重要性
选择句子,使用句子与文档之间的Rouge - 1 F1分数作为重要性的代理。
- 掩码比率:跨度损坏和间隙句子生成的掩码比率分别为0.15和0.2。
- 数据采样:由于Varta中各语言的数据大小从1.5K(博杰普尔语)到1440万篇文章(印地语)不等,我们在必要时使用基于标准温度的采样来上采样数据。
- 模型架构:使用T5 1.1基础架构,有12个编码器和解码器层。
- 序列长度:编码器和解码器的最大序列长度分别为512和256。
- 注意力头和维度:使用12个注意力头,嵌入维度为768,前馈宽度为2048。
- 词汇表:使用128K的SentencePiece词汇表。
- 参数数量:模型总共有3.95亿个参数。
- 优化器和学习率:使用Adafactor优化器,预热10000步,初始学习率为1e - 3,使用平方根衰减直到达到200万步。
- 批大小和训练设备:有效批大小为256,在TPU v3 - 8芯片上训练模型,训练模型需要11天。
评估结果
请参阅论文。
📄 许可证
本项目采用Apache-2.0许可证。
📚 引用
@misc{aralikatte2023varta,
title={V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages},
author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung},
year={2023},
eprint={2305.05858},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📋 信息表格
属性 |
详情 |
模型类型 |
基于T5 1.1基础架构的预训练模型 |
训练数据 |
来自Varta的14种印度语言和英语的4180万篇高质量新闻文章 |