🚀 KuBERT:中库尔德语BERT模型
KuBERT中库尔德语BERT模型借助BERT框架,提升了中库尔德语的计算语言学能力。库尔德语具有丰富的语言多样性,但相关资源和计算模型却十分匮乏,该项目正是为应对这一现状而发起的。
🚀 快速开始
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
model = BertModel.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
✨ 主要特性
- 利用BERT框架,增强中库尔德语的计算语言学能力。
- 整合了特定于库尔德语的分词器和各类分类器,展现了BERT对语言复杂性的适应性。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
📚 详细文档
简介
KuBERT中库尔德语BERT模型利用BERT框架,为中库尔德语的计算语言学研究提供支持。由于库尔德语的语言多样性丰富,但相关资源和计算模型却极为稀缺,该项目应运而生。
模型训练的数据获取
在训练深度学习模型时,数据收集是一大难题,对于像库尔德语这样的低资源语言来说更是如此。获取足够的数据对于BERT等复杂模型的有效性至关重要。由于数字资源匮乏,收集库尔德语数据比许多其他语言更为困难。为了构建全面的库尔德语词向量数据集,项目团队付出了巨大努力,从多个来源收集信息。
语料库编译
训练库尔德语BERT模型使用了三个主要语料库,总计2.965亿个标记:
- AsoSoft语料库:包含1.88亿个标记,数据来源于网站、教科书和杂志。
- AramRafeq和Muhammad Azizi语料库:从库尔德语网站收集了超过6000万个标记。
- Oscar 2019语料库:包含4850万个单词,进一步丰富了数据集。
这个全面的文本语料库确保了KuBERT模型能够高水平地理解和处理库尔德语。
概述
该项目运用BERT技术的最新进展,更好地理解和处理库尔德语数据。模型训练中采用了特定于库尔德语的分词器和各种分类器,展示了BERT对语言复杂性的适应能力。
贡献
BERT的集成是库尔德语计算语言学的重要一步,为未来低资源语言的自然语言处理工作提供了急需的基准。通过利用大量的库尔德语文本语料库,该项目填补了库尔德语语言处理工具的关键空白。
训练细节
BERT模型使用精心策划的库尔德语数据集进行了广泛的微调,以确保其最佳性能。通过严格的训练和评估,该模型能够处理各种语言任务。
最终备注
本README总结了KuBERT中库尔德语BERT模型项目的核心内容、数据获取工作以及BERT在库尔德语中的创新应用。如需全面了解模型的能力和详细训练细节,请查阅完整文档和相关研究材料。
相关链接和参考资料
语料库数据表总结
语料库名称 |
标记数量 |
Oscar 2019语料库 |
4850万 |
AsoSoft语料库 |
1.88亿 |
AramRafeq和Muhammad Azizi语料库 |
6000万 |
总计 |
2.965亿 |
AsoSoft库尔德语文本语料库
来源 |
标记数量 |
网站抓取数据 |
9500万 |
教科书 |
4500万 |
杂志 |
4800万 |
总计 |
1.88亿 |
Muhammad Azizi和AramRafeq语料库
来源 |
标记数量 |
维基百科 |
1350万 |
Wishe网站 |
1100万 |
Speemedia网站 |
650万 |
Kurdiu网站 |
1900万 |
Dengiamerika网站 |
200万 |
Chawg网站 |
800万 |
总计 |
6000万 |
🔧 技术细节
本项目使用的训练参数如下:
- 轮数:3
- 最大标记长度:256
- 学习率:1.00E - 05
- 丢弃率:0.3
- 批量大小:8
- GPU使用情况:是
📄 许可证
文档未提及许可证信息,故跳过此章节。
📖 引用
如果您使用我们的文本语料库,请引用以下文献:
Awlla, K.M., Veisi, H. & Abdullah, A.A. Sentiment analysis in low - resource contexts: BERT’s impact on Central Kurdish. Lang Resources & Evaluation (2025). https://doi.org/10.1007/s10579-024-09805-0
@article{awlla2025sentiment,
title={Sentiment analysis in low-resource contexts: BERT’s impact on Central Kurdish},
author={Awlla, K.M. and Veisi, H. and Abdullah, A.A.},
journal={Language Resources & Evaluation},
volume={35},
number={1},
pages={123--145}, % Replace with actual page numbers
year={2025},
publisher={Springer},
doi={10.1007/s10579-024-09805-0}
}