🚀 COMET翻譯評估模型
本項目是一個基於COMET的翻譯評估模型。它接收一個三元組(源句子、翻譯結果、參考翻譯),並返回一個分數,該分數反映了翻譯結果相對於源句子和參考翻譯的質量。
✨ 主要特性
- 多語言支持:基於XLM - RoBERTa,支持眾多語言,包括但不限於英語、中文、法語、德語等。
- 精準評估:通過接收源句子、翻譯結果和參考翻譯,輸出一個0到1之間的分數,直觀反映翻譯質量。
📦 安裝指南
使用此模型需要安裝unbabel-comet
:
pip install --upgrade pip
pip install unbabel-comet
💻 使用示例
基礎用法
可以通過comet CLI使用該模型:
comet-score -s {source-inputs}.txt -t {translation-outputs}.txt -r {references}.txt --model Unbabel/wmt22-comet-da
高級用法
使用Python調用該模型:
from comet import download_model, load_from_checkpoint
model_path = download_model("Unbabel/wmt22-comet-da")
model = load_from_checkpoint(model_path)
data = [
{
"src": "Dem Feuer konnte Einhalt geboten werden",
"mt": "The fire could be stopped",
"ref": "They were able to control the fire."
},
{
"src": "Schulen und Kindergärten wurden eröffnet.",
"mt": "Schools and kindergartens were open",
"ref": "Schools and kindergartens opened"
}
]
model_output = model.predict(data, batch_size=8, gpus=1)
print (model_output)
📚 詳細文檔
預期用途
本模型旨在用於機器翻譯評估。給定一個包含(源句子、翻譯結果、參考翻譯)的三元組,模型會輸出一個0到1之間的分數,其中1表示完美翻譯。
覆蓋語言
該模型基於XLM - R構建,支持以下語言:
南非荷蘭語、阿爾巴尼亞語、阿姆哈拉語、阿拉伯語、亞美尼亞語、阿薩姆語、阿塞拜疆語、巴斯克語、白俄羅斯語、孟加拉語、孟加拉語(羅馬化)、波斯尼亞語、布列塔尼語、保加利亞語、緬甸語、緬甸語、加泰羅尼亞語、中文(簡體)、中文(繁體)、克羅地亞語、捷克語、丹麥語、荷蘭語、英語、世界語、愛沙尼亞語、菲律賓語、芬蘭語、法語、加利西亞語、格魯吉亞語、德語、希臘語、古吉拉特語、豪薩語、希伯來語、印地語、印地語(羅馬化)、匈牙利語、冰島語、印尼語、愛爾蘭語、意大利語、日語、爪哇語、卡納達語、哈薩克語、高棉語、韓語、庫爾德語(庫爾德文)、吉爾吉斯語、老撾語、拉丁語、拉脫維亞語、立陶宛語、馬其頓語、馬達加斯加語、馬來語、馬拉雅拉姆語、馬拉地語、蒙古語、尼泊爾語、挪威語、奧里亞語、奧羅莫語、普什圖語、波斯語、波蘭語、葡萄牙語、旁遮普語、羅馬尼亞語、俄語、梵語、蘇格蘭蓋爾語、塞爾維亞語、信德語、僧伽羅語、斯洛伐克語、斯洛文尼亞語、索馬里語、西班牙語、巽他語、斯瓦希里語、瑞典語、泰米爾語、泰米爾語(羅馬化)、泰盧固語、泰盧固語(羅馬化)、泰語、土耳其語、烏克蘭語、烏爾都語、烏爾都語(羅馬化)、維吾爾語、烏茲別克語、越南語、威爾士語、西弗里斯蘭語、科薩語、意第緒語。
⚠️ 重要提示
因此,對於包含未覆蓋語言的語言對,評估結果可能不可靠!
📄 許可證
本項目採用Apache - 2.0許可證。
🔖 引用
COMET-22: Unbabel-IST 2022 Submission for the Metrics Shared Task (Rei et al., WMT 2022)