🚀 WangchanBERTa基础模型:wangchanberta-base-att-spm-uncased
WangchanBERTa基础模型是在各类泰语文本(78.5GB)上预训练的RoBERTa BASE模型,可用于掩码语言建模等任务,还提供了针对多分类/多标签文本分类和标记分类任务的微调模型。脚本和文档可在此仓库中找到。
🚀 快速开始
WangchanBERTa模型的入门笔记本可在这个Colab笔记本中找到。
✨ 主要特性
模型架构
预训练模型的架构基于RoBERTa [Liu et al., 2019]。
预期用途与限制
可以使用预训练模型进行掩码语言建模(即预测输入文本中的掩码标记)。此外,还提供了针对多分类/多标签文本分类和标记分类任务的微调模型:
- 多分类文本分类
wisesight_sentiment
:基于社交媒体帖子和推文的4类文本分类任务(positive
、neutral
、negative
和question
)。
wongnai_reivews
:用户评论评分分类任务(评分范围从1到5)。
generated_reviews_enth
:生成的用户评论评分分类任务(评分范围从1到5)。
- 多标签文本分类
prachathai67k
:基于prachathai.com新闻文章语料库的泰语主题分类,有12个标签。详情见此页面。
- 标记分类
thainer
:命名实体识别标记,有13种命名实体,详情见此页面。
lst20
:命名实体识别标记和词性标注,有10种命名实体和16种词性标签,详情见此页面。
📦 安装指南
原文档未提供安装步骤,此章节跳过。
💻 使用示例
原文档未提供代码示例,此章节跳过。
📚 详细文档
训练数据
wangchanberta-base-att-spm-uncased
模型在各类泰语文本数据集上进行了预训练。未压缩文本的总大小为78.5GB。
预处理
文本按照以下规则进行预处理:
关于词汇表,使用SentencePiece [Kudo, 2018]训练SentencePiece一元模型。分词器的词汇表大小为25,000个子词,在从训练集中采样的1500万个句子上进行训练。
每个序列的长度限制为最多416个子词标记。
关于掩码过程,对于每个序列,采样15%的标记并用<mask>
标记替换。在这15%中,80%被替换为<mask>
标记,10%保持不变,10%被替换为随机标记。
训练/验证/测试分割
经过预处理和去重后,有一个包含381,034,638个唯一的、主要是泰语句子的训练集,序列长度为5到300个单词(78.5GB)。训练集总共有16,957,775,412个单词(通过基于字典的最大匹配分词[Phatthiyaphaibun et al., 2020]),8,680,485,067个子词(通过SentencePiece分词器)和53,035,823,287个字符。
预训练
该模型在8个V100 GPU上训练了500,000步,批量大小为4,096(每个设备32个序列,16次累积步骤),序列长度为416个标记。使用的优化器是Adam,学习率为$3e - 4$,$\beta_1 = 0.9$,$\beta_2 = 0.999$,$\epsilon = 1e - 6$。学习率在前24,000步进行预热,然后线性衰减到零。选择验证损失最小的模型检查点作为最佳模型检查点。
截至2021年1月24日星期日,由于模型预训练尚未完成,发布了在360,000步检查点的模型。
BibTeX引用和引用信息
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技术细节
原文档未提供足够的技术实现细节,此章节跳过。
📄 许可证
原文档未提供许可证信息,此章节跳过。