🚀 WangchanBERTa基礎模型:wangchanberta-base-att-spm-uncased
WangchanBERTa基礎模型是在各類泰語文本(78.5GB)上預訓練的RoBERTa BASE模型,可用於掩碼語言建模等任務,還提供了針對多分類/多標籤文本分類和標記分類任務的微調模型。腳本和文檔可在此倉庫中找到。
🚀 快速開始
WangchanBERTa模型的入門筆記本可在這個Colab筆記本中找到。
✨ 主要特性
模型架構
預訓練模型的架構基於RoBERTa [Liu et al., 2019]。
預期用途與限制
可以使用預訓練模型進行掩碼語言建模(即預測輸入文本中的掩碼標記)。此外,還提供了針對多分類/多標籤文本分類和標記分類任務的微調模型:
- 多分類文本分類
wisesight_sentiment
:基於社交媒體帖子和推文的4類文本分類任務(positive
、neutral
、negative
和question
)。
wongnai_reivews
:用戶評論評分分類任務(評分範圍從1到5)。
generated_reviews_enth
:生成的用戶評論評分分類任務(評分範圍從1到5)。
- 多標籤文本分類
prachathai67k
:基於prachathai.com新聞文章語料庫的泰語主題分類,有12個標籤。詳情見此頁面。
- 標記分類
thainer
:命名實體識別標記,有13種命名實體,詳情見此頁面。
lst20
:命名實體識別標記和詞性標註,有10種命名實體和16種詞性標籤,詳情見此頁面。
📦 安裝指南
原文檔未提供安裝步驟,此章節跳過。
💻 使用示例
原文檔未提供代碼示例,此章節跳過。
📚 詳細文檔
訓練數據
wangchanberta-base-att-spm-uncased
模型在各類泰語文本數據集上進行了預訓練。未壓縮文本的總大小為78.5GB。
預處理
文本按照以下規則進行預處理:
關於詞彙表,使用SentencePiece [Kudo, 2018]訓練SentencePiece一元模型。分詞器的詞彙表大小為25,000個子詞,在從訓練集中採樣的1500萬個句子上進行訓練。
每個序列的長度限制為最多416個子詞標記。
關於掩碼過程,對於每個序列,採樣15%的標記並用<mask>
標記替換。在這15%中,80%被替換為<mask>
標記,10%保持不變,10%被替換為隨機標記。
訓練/驗證/測試分割
經過預處理和去重後,有一個包含381,034,638個唯一的、主要是泰語句子的訓練集,序列長度為5到300個單詞(78.5GB)。訓練集總共有16,957,775,412個單詞(通過基於字典的最大匹配分詞[Phatthiyaphaibun et al., 2020]),8,680,485,067個子詞(通過SentencePiece分詞器)和53,035,823,287個字符。
預訓練
該模型在8個V100 GPU上訓練了500,000步,批量大小為4,096(每個設備32個序列,16次累積步驟),序列長度為416個標記。使用的優化器是Adam,學習率為$3e - 4$,$\beta_1 = 0.9$,$\beta_2 = 0.999$,$\epsilon = 1e - 6$。學習率在前24,000步進行預熱,然後線性衰減到零。選擇驗證損失最小的模型檢查點作為最佳模型檢查點。
截至2021年1月24日星期日,由於模型預訓練尚未完成,發佈了在360,000步檢查點的模型。
BibTeX引用和引用信息
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技術細節
原文檔未提供足夠的技術實現細節,此章節跳過。
📄 許可證
原文檔未提供許可證信息,此章節跳過。