🚀 HPLT MT 發佈 v1.0
本倉庫包含僅使用 HPLT 數據訓練的阿拉伯語 - 英語翻譯模型。該模型同時提供 Marian 和 Hugging Face 兩種格式。
🚀 快速開始
本項目提供了一個阿拉伯語 - 英語的翻譯模型,支持 Marian 和 Hugging Face 兩種格式。在使用時,考慮到質量因素,建議使用 HPLT/translate-ar-en-v1.0-hplt_opus 而非本模型。
✨ 主要特性
- 多格式支持:模型同時提供 Marian 和 Hugging Face 格式,方便不同場景使用。
- 數據純淨:僅使用 HPLT 數據進行訓練,並使用 OpusCleaner 進行數據清洗。
📦 安裝指南
使用 Marian
若要使用 MarianNMT 進行推理,請參考我們 GitHub 倉庫的 推理/解碼/翻譯 部分。你需要從本倉庫獲取模型文件 model.npz.best-chrf.npz
和詞彙文件 model.ar-en.spm
。
使用 transformers
我們已將該模型轉換為 Hugging Face 格式,你可以使用以下腳本開始使用。由於權重轉換存在 已知問題,該檢查點無法在 transformer 版本 <4.26 或 >4.30 下工作。我們測試並建議使用 pip install transformers==4.28
。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("HPLT/translate-ar-en-v1.0-hplt")
model = AutoModelForSeq2SeqLM.from_pretrained("HPLT/translate-ar-en-v1.0-hplt")
inputs = ["Input goes here.", "Make sure the language is right."]
batch_tokenized = tokenizer(inputs, return_tensors="pt", padding=True)
model_output = model.generate(
**batch_tokenized, num_beams=6, max_new_tokens=512
)
batch_detokenized = tokenizer.batch_decode(
model_output,
skip_special_tokens=True,
)
print(batch_detokenized)
📚 詳細文檔
模型信息
屬性 |
詳情 |
源語言 |
阿拉伯語 |
目標語言 |
英語 |
訓練數據 |
僅 HPLT 數據 |
模型架構 |
Transformer-base |
分詞器 |
SentencePiece (Unigram) |
數據清洗 |
使用 OpusCleaner 並遵循一組基本規則,詳細信息可在 此處 的過濾文件中找到。 |
你可以查看我們的 交付報告、GitHub 倉庫 和 網站 以獲取更多詳細信息。
基準測試
使用 Marian 進行解碼時,該模型在以下測試集上的得分如下:
測試集 |
BLEU |
chrF++ |
COMET22 |
FLORES200 |
35.0 |
58.5 |
0.8396 |
NTREX |
28.6 |
54.6 |
0.8194 |
📄 許可證
本項目採用 CC BY 4.0 許可證。
致謝
本項目獲得了歐盟地平線歐洲研究與創新計劃(資助協議編號 101070350)以及英國研究與創新署(UKRI)根據英國政府地平線歐洲資助保障計劃(資助編號 10052546)的資助。
本項目由愛丁堡大學和布拉格查理大學的研究人員共同完成,並得到了整個 HPLT 聯盟的支持。
⚠️ 重要提示
考慮到質量因素,建議使用 HPLT/translate-ar-en-v1.0-hplt_opus 而非本模型。由於權重轉換存在 已知問題,該檢查點無法在 transformer 版本 <4.26 或 >4.30 下工作,建議使用 pip install transformers==4.28
。
💡 使用建議
在使用模型進行推理時,可參考 GitHub 倉庫的 推理/解碼/翻譯 部分獲取詳細指導。