wangchanberta-base-att-spm-uncased開源模型 - 用於泰語掩碼語言建模與文本分類

首頁

Wangchanberta Base Att Spm Uncased

由airesearch開發

基於78.5GB泰語文本預訓練的RoBERTa BASE模型，適用於掩碼語言建模及文本分類任務

大型語言模型

Transformers

其他#泰語文本分類 #社交媒體情感分析 #用戶評論星級預測

下載量 34.38k

發布時間 : 3/2/2022

模型概述

該模型是基於RoBERTa架構的泰語預訓練模型，主要用於掩碼語言建模預測和文本分類任務。支持多種下游NLP應用。

模型特點

大規模泰語預訓練

基於78.5GB泰語文本數據訓練，具有優秀的泰語理解能力

多任務支持

支持掩碼語言建模、文本分類和序列標記等多種NLP任務

RoBERTa優化架構

採用改進的RoBERTa架構，具有更強的上下文理解能力

模型能力

泰語文本理解

掩碼語言預測

情感分析

文本分類

序列標記

使用案例

社交媒體分析

情感分析

分析泰語社交媒體帖子的情感傾向

可分類為積極/中立/消極/提問四類情感

評論分析

評論星級預測

預測用戶評論的星級(1-5星)

在Wongnai評論數據集上表現良好

新聞分類

多標籤主題分類

對泰語新聞進行12類主題分類

在Prachathai67k數據集上實現多標籤分類

🚀 WangchanBERTa基礎模型：`wangchanberta-base-att-spm-uncased`

WangchanBERTa基礎模型是在各類泰語文本（78.5GB）上預訓練的RoBERTa BASE模型，可用於掩碼語言建模等任務，還提供了針對多分類/多標籤文本分類和標記分類任務的微調模型。腳本和文檔可在此倉庫中找到。

🚀 快速開始

WangchanBERTa模型的入門筆記本可在這個Colab筆記本中找到。

✨ 主要特性

模型架構

預訓練模型的架構基於RoBERTa [Liu et al., 2019]。

預期用途與限制

可以使用預訓練模型進行掩碼語言建模（即預測輸入文本中的掩碼標記）。此外，還提供了針對多分類/多標籤文本分類和標記分類任務的微調模型：

多分類文本分類
- wisesight_sentiment：基於社交媒體帖子和推文的4類文本分類任務（positive、neutral、negative和question）。
- wongnai_reivews：用戶評論評分分類任務（評分範圍從1到5）。
- generated_reviews_enth：生成的用戶評論評分分類任務（評分範圍從1到5）。
多標籤文本分類
- prachathai67k：基於prachathai.com新聞文章語料庫的泰語主題分類，有12個標籤。詳情見此頁面。
標記分類
- thainer：命名實體識別標記，有13種命名實體，詳情見此頁面。
- lst20：命名實體識別標記和詞性標註，有10種命名實體和16種詞性標籤，詳情見此頁面。

📦 安裝指南

原文檔未提供安裝步驟，此章節跳過。

💻 使用示例

原文檔未提供代碼示例，此章節跳過。

📚 詳細文檔

訓練數據

wangchanberta-base-att-spm-uncased模型在各類泰語文本數據集上進行了預訓練。未壓縮文本的總大小為78.5GB。

預處理

文本按照以下規則進行預處理：

用實際字符替換HTML字符形式，例如用空格替換 ，用換行符替換<br /> [Howard and Ruder, 2018]。
移除空括號（()、{}和[]），這些括號有時是從維基百科等文本提取過程中產生的。
用空格替換換行符。
用單個空格替換多個連續空格。
移除超過3個重複字符，例如將ดีมากกก替換為ดีมาก [Howard and Ruder, 2018]。
使用[Phatthiyaphaibun et al., 2020]的基於字典的最大匹配分詞器進行詞級分詞。
替換重複單詞；這是在分詞後進行的，與[Howard and Ruder, 2018]不同，因為泰語不像英語那樣用空格分隔。
用<_>替換空格。SentencePiece分詞器會將空格與其他標記組合。由於空格在泰語中起到標點符號的作用，如句子邊界類似於英語中的句號，將其與其他標記組合會忽略詞分詞和句子分割等任務的重要特徵。因此，選擇用<_>顯式標記空格。

關於詞彙表，使用SentencePiece [Kudo, 2018]訓練SentencePiece一元模型。分詞器的詞彙表大小為25,000個子詞，在從訓練集中採樣的1500萬個句子上進行訓練。

每個序列的長度限制為最多416個子詞標記。

關於掩碼過程，對於每個序列，採樣15%的標記並用<mask>標記替換。在這15%中，80%被替換為<mask>標記，10%保持不變，10%被替換為隨機標記。

訓練/驗證/測試分割

經過預處理和去重後，有一個包含381,034,638個唯一的、主要是泰語句子的訓練集，序列長度為5到300個單詞（78.5GB）。訓練集總共有16,957,775,412個單詞（通過基於字典的最大匹配分詞[Phatthiyaphaibun et al., 2020]），8,680,485,067個子詞（通過SentencePiece分詞器）和53,035,823,287個字符。

預訓練

該模型在8個V100 GPU上訓練了500,000步，批量大小為4,096（每個設備32個序列，16次累積步驟），序列長度為416個標記。使用的優化器是Adam，學習率為$3e - 4$，$\beta_1 = 0.9$，$\beta_2 = 0.999$，$\epsilon = 1e - 6$。學習率在前24,000步進行預熱，然後線性衰減到零。選擇驗證損失最小的模型檢查點作為最佳模型檢查點。

截至2021年1月24日星期日，由於模型預訓練尚未完成，發佈了在360,000步檢查點的模型。

BibTeX引用和引用信息

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}