wangchanberta-base-wiki-newmm開源模型 - 免費處理泰語文本任務必備！

首頁

Wangchanberta Base Wiki Newmm

由airesearch開發

基於泰語維基百科預訓練的RoBERTa BASE模型，適用於泰語文本處理任務

大型語言模型其他#泰語預訓練 #維基百科語料 #RoBERTa架構

下載量 115

發布時間 : 3/2/2022

模型概述

該模型是基於泰語維基百科語料庫預訓練的RoBERTa BASE架構模型，主要用於泰語文本的掩碼語言建模任務，也可用於文本分類和標記分類任務。

模型特點

泰語優化

專門針對泰語文本進行預訓練和優化

多任務支持

支持多種下游任務，包括文本分類和命名實體識別

大規模預訓練

基於泰語維基百科大規模語料庫進行預訓練

模型能力

掩碼語言建模

文本分類

命名實體識別

詞性標註

使用案例

情感分析

社交媒體情感分析

分析社交媒體帖子和推文的情感傾向

支持4種情感分類(積極、中性、消極、提問)

評論分析

用戶評論星級預測

預測用戶評論的星級評分(1-5星)

新聞分類

新聞主題分類

對新聞文章進行多標籤主題分類

支持12種主題標籤

信息提取

命名實體識別

從文本中識別命名實體

支持13種命名實體類型

🚀 WangchanBERTa基礎模型：`wangchanberta-base-wiki-newmm`

WangchanBERTa基礎模型是在泰國維基百科語料庫上預訓練的RoBERTa BASE模型，能夠用於多種自然語言處理任務。腳本和文檔可在此倉庫中找到。

🚀 快速開始

WangchanBERTa模型的入門筆記本可在此Colab筆記本中找到。

✨ 主要特性

模型架構

預訓練模型的架構基於RoBERTa [Liu et al., 2019]。

預期用途與限制

可以使用預訓練模型進行掩碼語言建模（即預測輸入文本中的掩碼標記）。此外，還提供了針對多類/多標籤文本分類和標記分類任務的微調模型。

多類文本分類
- wisesight_sentiment：基於社交媒體帖子和推文的4類文本分類任務（positive、neutral、negative和question）。
- wongnai_reivews：用戶評論評分分類任務（評分範圍為1到5）。
- generated_reviews_enth：生成的用戶評論評分分類任務（評分範圍為1到5）。
多標籤文本分類
- prachathai67k：基於prachathai.com新聞文章語料庫的12標籤泰國主題分類任務。詳情見此頁面。
標記分類
- thainer：命名實體識別標記，包含13種命名實體，詳情見此頁面。
- lst20：命名實體識別和詞性標註，包含10種命名實體和16種詞性標籤，詳情見此頁面。

🔧 技術細節

訓練數據

wangchanberta-base-wiki-newmm模型在泰國維基百科上進行預訓練。具體來說，使用了2020年8月20日的維基百科轉儲文章（dumps.wikimedia.org/thwiki/20200820/），並排除了列表和表格。

預處理

文本按照以下規則進行預處理：

用空格替換不間斷空格、零寬度不間斷空格和軟連字符。
移除第一段標題後出現的空括號。
用<_>替換空格。

詞彙表

使用PyThaiNLP基於字典的分詞器newmm的詞級分詞。詞彙表中的詞級標記總數為97,982。

句子採樣

連續採樣句子，使其長度最多為512個標記。對於一些超過512個標記邊界的句子，使用額外的標記作為文檔分隔符進行分割。這與[Liu et al., 2019]提出的方法相同（稱為“FULL-SENTENCES”）。

掩碼過程

對於每個序列，採樣15%的標記並用標記替換。在這15%中，80%被替換為標記，10%保持不變，10%被替換為隨機標記。

訓練/驗證/測試集劃分

按順序劃分944,782個句子作為訓練集，24,863個句子作為驗證集，24,862個句子作為測試集。

預訓練

模型在32個V100 GPU上訓練31,250步，批量大小為8,192（每個設備16個序列，16個累積步驟），序列長度為512個標記。使用的優化器是Adam，學習率為$7e - 4$，$\beta_1 = 0.9$，$\beta_2 = 0.98$，$\epsilon = 1e - 6$。學習率在前1250步進行預熱，然後線性衰減到零。選擇驗證損失最小的模型檢查點作為最佳模型檢查點。

BibTeX引用

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}