khmer-xlm-roberta-base-10k開源語言模型 - 優化高棉語和英語掩碼語言建模

首頁

Khmer Xlm Roberta Base 10k

由metythorn開發

這是一個基於XLM-RoBERTa架構預訓練的高棉語和英語語言模型，專為掩碼語言建模任務優化，在高棉語語境下表現優於原版xlm-roberta-base模型。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #高棉語掩碼填充 #多語言預訓練 #低資源優化

下載量 1,095

發布時間 : 7/3/2025

模型概述

該模型主要用於高棉語的掩碼語言建模任務，可用於填充掩碼、特徵提取、下游任務微調及語言理解研究。

模型特點

高棉語優化

專門針對高棉語進行優化，在高棉語掩碼語言建模任務中表現優於原版XLM-RoBERTa-base模型

雙語支持

同時支持高棉語和英語處理

大規模訓練

基於約8400萬個示例(8.2GB)的高質量雙語數據集訓練

模型能力

填充掩碼預測

文本特徵提取

語言模型微調

使用案例

自然語言處理

高棉語文本補全

預測高棉語句子中被掩碼的詞語

在高棉語語境下表現優於原版XLM-RoBERTa

語言理解研究

用於高棉語語言模型的研究和分析

🚀 XLM-RoBERTa高棉語掩碼語言模型

這是一個使用XLM - RoBERTa架構為高棉語和英語構建的預訓練語言模型，專為掩碼語言建模任務而訓練。在掩碼語言建模（MLM）任務中，這個非官方的預訓練模型在高棉語語境下的表現優於原始的FacebookAI/xlm - roberta - base模型。

🚀 快速開始

以下是使用該模型的示例代碼：

填充掩碼管道

from transformers import pipeline

# 加載模型
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# 示例用法
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)

直接使用模型

from transformers import AutoTokenizer, AutoModelForMaskedLM

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")

# 示例用法
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")

# 獲取掩碼標記的預測結果
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")

✨ 主要特性

專為高棉語和英語的掩碼語言建模任務設計。
在高棉語語境的掩碼語言建模任務中表現優於原始的xlm - roberta - base模型。
可用於填充掩碼任務、特徵提取、下游高棉語自然語言處理任務的微調以及高棉語理解研究。

📦 安裝指南

文檔未提供安裝步驟，可參考transformers庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

from transformers import pipeline

# 加載模型
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# 示例用法
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)

高級用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")

# 示例用法
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")

# 獲取掩碼標記的預測結果
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	用於掩碼語言建模的XLM - RoBERTa
語言	高棉語（km）
基礎模型	xlm - roberta - base
訓練數據	包含約8400萬個示例的高棉語和英語數據集，約8.2GB
參數	93,733,648個可訓練參數
訓練步驟	1,122,978
最終檢查點	第358500步

訓練詳情

訓練示例：約8400萬個示例，約8.2GB
輪數：3
批量大小：8（使用DataParallel）
梯度累積：1
總優化步驟：1,122,978
學習率：約2e - 5（使用調度器）
硬件和訓練時間：使用4個GPU訓練2天

訓練指標

最終訓練損失：1.5163
最終學習率：6.61e - 06
最終梯度範數：2.9005
訓練輪數：66.94

預期用途

填充掩碼任務：用於高棉語的填充掩碼任務。
特徵提取：提取高棉語文本的特徵。
微調：在下游高棉語自然語言處理任務上進行微調。
研究：用於高棉語理解的研究。

侷限性

主要基於高棉語文本模式進行訓練。
可能無法有效處理代碼切換（code - switching）情況。
在正式和非正式高棉語中的表現可能有所不同。
對技術或特定領域詞彙的接觸有限。

訓練數據

該模型在一個自定義的高棉語數據集上進行訓練，該數據集包含各種文本來源，以確保廣泛的語言覆蓋。

評估

使用以下代碼對該模型進行掩碼語言建模評估：

from transformers import pipeline
import numpy as np

# 加載模型
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# 測試示例
test_sentences = [
    "ប្រទេសកម្ពុជាមាន<mask>ខេត្ត",
    "រាជធានីភ្នំពេញគឺជ<mask>របស់ប្រទេសកម្ពុជា",
    "ខ្ញុំចង់<mask>សៀវភៅ"
]

for sentence in test_sentences:
    result = fill_mask(sentence)
    print(f"Input: {sentence}")
    print(f"Top prediction: {result[0]['token_str']}")
    print("---")

📄 許可證

本模型採用Apache - 2.0許可證。

🔗 引用

如果您在研究中使用了該模型，請引用：

@misc{xlm-roberta-khmer,
  title={XLM-RoBERTa Khmer Masked Language Model},
  author={Your Name},
  year={2025},
  url={https://huggingface.co/metythorn/khmer-xlm-roberta-base}
}