translate - ar - en - v1.0 - hplt開源模型 - 免費實現阿拉伯語到英語的精準翻譯

首頁

Translate Ar En V1.0 Hplt

由HPLT開發

這是一個基於Transformer架構的阿拉伯語到英語的機器翻譯模型，僅使用HPLT數據訓練。

機器翻譯

Transformers

支持多種語言#阿拉伯語-英語翻譯 #HPLT數據訓練 #Transformer架構

下載量 26

發布時間 : 2/27/2024

模型概述

該模型專門用於阿拉伯語到英語的機器翻譯任務，採用Transformer-base架構和SentencePiece分詞器，經過嚴格的數據清洗流程。

模型特點

高質量數據訓練

僅使用經過嚴格篩選的HPLT數據訓練，使用OpusCleaner進行數據清洗

雙重格式支持

提供Marian和Hugging Face兩種格式，方便不同框架使用

嚴格質量把控

建議優先使用經過優化的hplt_opus版本模型

模型能力

阿拉伯語到英語文本翻譯

批量文本翻譯處理

使用案例

多語言內容翻譯

文檔翻譯

將阿拉伯語文檔翻譯為英語

在FLORES200測試集上達到35.0 BLEU分數

多語言應用支持

為應用程序提供阿拉伯語到英語的翻譯功能

在NTREX測試集上達到28.6 BLEU分數

🚀 HPLT MT 發佈 v1.0

本倉庫包含僅使用 HPLT 數據訓練的阿拉伯語 - 英語翻譯模型。該模型同時提供 Marian 和 Hugging Face 兩種格式。

🚀 快速開始

本項目提供了一個阿拉伯語 - 英語的翻譯模型，支持 Marian 和 Hugging Face 兩種格式。在使用時，考慮到質量因素，建議使用 HPLT/translate-ar-en-v1.0-hplt_opus 而非本模型。

✨ 主要特性

多格式支持：模型同時提供 Marian 和 Hugging Face 格式，方便不同場景使用。
數據純淨：僅使用 HPLT 數據進行訓練，並使用 OpusCleaner 進行數據清洗。

📦 安裝指南

使用 Marian

若要使用 MarianNMT 進行推理，請參考我們 GitHub 倉庫的推理/解碼/翻譯部分。你需要從本倉庫獲取模型文件 model.npz.best-chrf.npz 和詞彙文件 model.ar-en.spm。

使用 transformers

我們已將該模型轉換為 Hugging Face 格式，你可以使用以下腳本開始使用。由於權重轉換存在已知問題，該檢查點無法在 transformer 版本 <4.26 或 >4.30 下工作。我們測試並建議使用 pip install transformers==4.28。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("HPLT/translate-ar-en-v1.0-hplt")
model = AutoModelForSeq2SeqLM.from_pretrained("HPLT/translate-ar-en-v1.0-hplt")

inputs = ["Input goes here.", "Make sure the language is right."]
batch_tokenized = tokenizer(inputs, return_tensors="pt", padding=True)
model_output = model.generate(
    **batch_tokenized, num_beams=6, max_new_tokens=512
)
batch_detokenized = tokenizer.batch_decode(
    model_output,
    skip_special_tokens=True,
)

print(batch_detokenized)

📚 詳細文檔

模型信息

屬性	詳情
源語言	阿拉伯語
目標語言	英語
訓練數據	僅 HPLT 數據
模型架構	Transformer-base
分詞器	SentencePiece (Unigram)
數據清洗	使用 OpusCleaner 並遵循一組基本規則，詳細信息可在此處的過濾文件中找到。

你可以查看我們的交付報告、GitHub 倉庫和網站以獲取更多詳細信息。

基準測試

使用 Marian 進行解碼時，該模型在以下測試集上的得分如下：

測試集	BLEU	chrF++	COMET22
FLORES200	35.0	58.5	0.8396
NTREX	28.6	54.6	0.8194

📄 許可證

本項目採用 CC BY 4.0 許可證。

致謝

本項目獲得了歐盟地平線歐洲研究與創新計劃（資助協議編號 101070350）以及英國研究與創新署（UKRI）根據英國政府地平線歐洲資助保障計劃（資助編號 10052546）的資助。

本項目由愛丁堡大學和布拉格查理大學的研究人員共同完成，並得到了整個 HPLT 聯盟的支持。

⚠️ 重要提示

考慮到質量因素，建議使用 HPLT/translate-ar-en-v1.0-hplt_opus 而非本模型。由於權重轉換存在已知問題，該檢查點無法在 transformer 版本 <4.26 或 >4.30 下工作，建議使用 pip install transformers==4.28。