khmer-xlm-roberta-base-10k开源语言模型 - 优化高棉语和英语掩码语言建模

首页

Khmer Xlm Roberta Base 10k

由 metythorn 开发

这是一个基于XLM-RoBERTa架构预训练的高棉语和英语语言模型，专为掩码语言建模任务优化，在高棉语语境下表现优于原版xlm-roberta-base模型。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #高棉语掩码填充 #多语言预训练 #低资源优化

下载量 1,095

发布时间 : 7/3/2025

模型简介

该模型主要用于高棉语的掩码语言建模任务，可用于填充掩码、特征提取、下游任务微调及语言理解研究。

模型特点

高棉语优化

专门针对高棉语进行优化，在高棉语掩码语言建模任务中表现优于原版XLM-RoBERTa-base模型

双语支持

同时支持高棉语和英语处理

大规模训练

基于约8400万个示例(8.2GB)的高质量双语数据集训练

模型能力

填充掩码预测

文本特征提取

语言模型微调

使用案例

自然语言处理

高棉语文本补全

预测高棉语句子中被掩码的词语

在高棉语语境下表现优于原版XLM-RoBERTa

语言理解研究

用于高棉语语言模型的研究和分析

🚀 XLM-RoBERTa高棉语掩码语言模型

这是一个使用XLM - RoBERTa架构为高棉语和英语构建的预训练语言模型，专为掩码语言建模任务而训练。在掩码语言建模（MLM）任务中，这个非官方的预训练模型在高棉语语境下的表现优于原始的FacebookAI/xlm - roberta - base模型。

🚀 快速开始

以下是使用该模型的示例代码：

填充掩码管道

from transformers import pipeline

# 加载模型
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# 示例用法
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)

直接使用模型

from transformers import AutoTokenizer, AutoModelForMaskedLM

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")

# 示例用法
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")

# 获取掩码标记的预测结果
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")

✨ 主要特性

专为高棉语和英语的掩码语言建模任务设计。
在高棉语语境的掩码语言建模任务中表现优于原始的xlm - roberta - base模型。
可用于填充掩码任务、特征提取、下游高棉语自然语言处理任务的微调以及高棉语理解研究。

📦 安装指南

文档未提供安装步骤，可参考transformers库的官方安装指南进行安装。

💻 使用示例

基础用法

from transformers import pipeline

# 加载模型
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# 示例用法
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)

高级用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")

# 示例用法
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")

# 获取掩码标记的预测结果
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")

📚 详细文档

模型详情

属性	详情
模型类型	用于掩码语言建模的XLM - RoBERTa
语言	高棉语（km）
基础模型	xlm - roberta - base
训练数据	包含约8400万个示例的高棉语和英语数据集，约8.2GB
参数	93,733,648个可训练参数
训练步骤	1,122,978
最终检查点	第358500步

训练详情

训练示例：约8400万个示例，约8.2GB
轮数：3
批量大小：8（使用DataParallel）
梯度累积：1
总优化步骤：1,122,978
学习率：约2e - 5（使用调度器）
硬件和训练时间：使用4个GPU训练2天

训练指标

最终训练损失：1.5163
最终学习率：6.61e - 06
最终梯度范数：2.9005
训练轮数：66.94

预期用途

填充掩码任务：用于高棉语的填充掩码任务。
特征提取：提取高棉语文本的特征。
微调：在下游高棉语自然语言处理任务上进行微调。
研究：用于高棉语理解的研究。

局限性

主要基于高棉语文本模式进行训练。
可能无法有效处理代码切换（code - switching）情况。
在正式和非正式高棉语中的表现可能有所不同。
对技术或特定领域词汇的接触有限。

训练数据

该模型在一个自定义的高棉语数据集上进行训练，该数据集包含各种文本来源，以确保广泛的语言覆盖。

评估

使用以下代码对该模型进行掩码语言建模评估：

from transformers import pipeline
import numpy as np

# 加载模型
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# 测试示例
test_sentences = [
    "ប្រទេសកម្ពុជាមាន<mask>ខេត្ត",
    "រាជធានីភ្នំពេញគឺជ<mask>របស់ប្រទេសកម្ពុជា",
    "ខ្ញុំចង់<mask>សៀវភៅ"
]

for sentence in test_sentences:
    result = fill_mask(sentence)
    print(f"Input: {sentence}")
    print(f"Top prediction: {result[0]['token_str']}")
    print("---")

📄 许可证

本模型采用Apache - 2.0许可证。

🔗 引用

如果您在研究中使用了该模型，请引用：

@misc{xlm-roberta-khmer,
  title={XLM-RoBERTa Khmer Masked Language Model},
  author={Your Name},
  year={2025},
  url={https://huggingface.co/metythorn/khmer-xlm-roberta-base}
}