🚀 Varta-T5
Varta-T5是一個預訓練模型,它基於多語言新聞語料庫進行訓練,支持14種印度語言和英語。該模型可用於多種自然語言處理任務,為相關領域的研究和應用提供了有力支持。
🚀 快速開始
你可以直接使用此模型進行跨度填充。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rahular/varta-t5")
model = AutoModelForSeq2SeqLM.from_pretrained("rahular/varta-t5")
✨ 主要特性
- 多語言支持:在14種印度語言(阿薩姆語、博傑普爾語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、尼泊爾語、奧里亞語、旁遮普語、泰米爾語、泰盧固語和烏爾都語)以及英語上進行預訓練。
- 廣泛的任務適用性:適用於因果語言建模,並且可在下游任務上進行微調,可用於文本生成任務(如機器翻譯、文檔摘要、問答)和分類任務(如情感分析)。
📚 詳細文檔
模型描述
Varta-T5是在Varta的完整
訓練集上進行預訓練的模型,使用跨度損壞和間隙句子生成作為目標。Varta是一個用於印度語言的大規模新聞語料庫,包含14種不同印度語言(以及英語)的4180萬篇新聞文章,這些文章來自各種高質量來源。該數據集和模型在這篇論文中被介紹,代碼在這個倉庫中發佈。
用途
你可以使用此模型進行因果語言建模,但它主要用於在下游任務上進行微調。文本到文本框架允許我們在任何自然語言處理任務中使用相同的模型,包括文本生成任務(例如,機器翻譯、文檔摘要、問答)和分類任務(例如,情感分析)。
偏差、風險和侷限性
這項工作主要致力於為印度語言策劃一個新的多語言數據集,其中許多是低資源語言。在數據收集過程中,我們面臨一些可能導致倫理問題的限制,以下是一些重要的限制:
- 數據來源偏差:我們的數據集僅包含由DailyHunt的合作伙伴發佈者撰寫的文章,這可能導致對特定敘事或意識形態的偏差,從而影響數據集的代表性和多樣性。
- 語言覆蓋不全:在印度具有官方地位的22種語言中,我們的數據集僅涵蓋了13種。有122種主要語言至少有10000人使用,還有159種其他極低資源語言,這些語言都未在我們的數據集中得到體現。
- 缺乏去偏處理:我們沒有對Varta進行任何去偏處理,這意味著數據集中可能存在社會和文化偏差,這可能會對在其上訓練的模型的公平性和包容性產生不利影響。
訓練細節
訓練數據
Varta包含14種印度語言和英語的4180萬篇高質量新聞文章,擁有3450萬對非英語文章 - 標題對,是同類中最大的文檔級數據集。
預訓練
- 訓練目標:使用跨度損壞和間隙句子生成作為預訓練目標,在預訓練期間對這兩個目標進行均勻採樣。
- 跨度損壞:類似於掩碼語言建模,但不是隨機掩碼標記,而是掩碼平均長度為3的標記跨度。
- 間隙句子預測:掩碼整個句子而不是跨度,我們遵循原始工作,根據句子的
重要性
選擇句子,使用句子與文檔之間的Rouge - 1 F1分數作為重要性的代理。
- 掩碼比率:跨度損壞和間隙句子生成的掩碼比率分別為0.15和0.2。
- 數據採樣:由於Varta中各語言的數據大小從1.5K(博傑普爾語)到1440萬篇文章(印地語)不等,我們在必要時使用基於標準溫度的採樣來上採樣數據。
- 模型架構:使用T5 1.1基礎架構,有12個編碼器和解碼器層。
- 序列長度:編碼器和解碼器的最大序列長度分別為512和256。
- 注意力頭和維度:使用12個注意力頭,嵌入維度為768,前饋寬度為2048。
- 詞彙表:使用128K的SentencePiece詞彙表。
- 參數數量:模型總共有3.95億個參數。
- 優化器和學習率:使用Adafactor優化器,預熱10000步,初始學習率為1e - 3,使用平方根衰減直到達到200萬步。
- 批大小和訓練設備:有效批大小為256,在TPU v3 - 8芯片上訓練模型,訓練模型需要11天。
評估結果
請參閱論文。
📄 許可證
本項目採用Apache-2.0許可證。
📚 引用
@misc{aralikatte2023varta,
title={V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages},
author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung},
year={2023},
eprint={2305.05858},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📋 信息表格
屬性 |
詳情 |
模型類型 |
基於T5 1.1基礎架構的預訓練模型 |
訓練數據 |
來自Varta的14種印度語言和英語的4180萬篇高質量新聞文章 |