Quadrifoglio-mt-en-it開源翻譯模型 - 免費實現精準英語-意大利語翻譯

首頁

Quadrifoglio Mt En It

由puettmann開發

基於bigscience/mt0-small架構的編碼器-解碼器轉換器模型，專注於英語-意大利語文本翻譯

機器翻譯

Transformers

支持多種語言開源協議:Apache-2.0 #英意翻譯 #小型翻譯模型 #單句優化

下載量 29

發布時間 : 12/23/2024

模型概述

該模型專門用於英語到意大利語的文本翻譯任務，訓練數據來源於Helsinki-NLP/opus-100和Helsinki-NLP/europarl中的英意對照語料。

模型特點

專注英意翻譯

專門針對英語到意大利語的翻譯任務進行優化

基於優質語料

使用Helsinki-NLP/opus-100和europarl等高質量雙語語料庫訓練

小型高效

基於mt0-small架構，在保持性能的同時減少資源消耗

模型能力

英語到意大利語文本翻譯

意大利語到英語文本翻譯

使用案例

文本翻譯

日常用語翻譯

將日常對話從英語翻譯為意大利語

準確翻譯日常用語，如'請給我一杯綠茶'等

商務文件翻譯

翻譯商務文件中的句子

保持專業術語的準確性

🚀 四葉草（Quadrifoglio） - 用於英語到意大利語翻譯的小型模型

四葉草（Quadrifoglio）是一個基於bigscience/mt0-small的編碼器 - 解碼器Transformer模型，用於英語和意大利語之間的文本翻譯。它在Helsinki-NLP/opus-100和Helsinki-NLP/europarl數據集的英意（en-it）部分上進行了訓練。

🚀 快速開始

模型信息

屬性	詳情
庫名稱	transformers
標籤	seq2seq
許可證	apache - 2.0
數據集	Helsinki - NLP/europarl、Helsinki - NLP/opus - 100
語言	英語、意大利語
基礎模型	bigscience/mt0 - small
任務類型	翻譯
評估指標	bleu

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Load model and tokenizer from checkpoint directory
tokenizer = AutoTokenizer.from_pretrained("LeonardPuettmann/Quadrifoglio-mt-en-it")
model = AutoModelForSeq2SeqLM.from_pretrained("LeonardPuettmann/Quadrifoglio-mt-en-it")

def generate_response(input_text):
    input_ids = tokenizer("translate English to Italian:" + input_text, return_tensors="pt").input_ids
    output = model.generate(input_ids, max_new_tokens=256)
    return tokenizer.decode(output[0], skip_special_tokens=True)

text_to_translate = "I would like a cup of green tea, please."
response = generate_response(text_to_translate)
print(response)

高級用法

由於該模型是在翻譯句子對上進行訓練的，因此最好將較長的文本拆分為單個句子，理想情況下可以使用SpaCy。然後可以翻譯這些句子，並在最後將翻譯結果連接起來，示例代碼如下：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import spacy
# First, install spaCy and the English language model if you haven't already
# !pip install spacy
# !python -m spacy download en_core_web_sm

nlp = spacy.load("en_core_web_sm")

tokenizer = AutoTokenizer.from_pretrained("LeonardPuettmann/Quadrifoglio-mt-en-it")
model = AutoModelForSeq2SeqLM.from_pretrained("LeonardPuettmann/Quadrifoglio-mt-en-it")

def generate_response(input_text):
    input_ids = tokenizer("translate Italian to English: " + input_text, return_tensors="pt").input_ids
    output = model.generate(input_ids, max_new_tokens=256)
    return tokenizer.decode(output[0], skip_special_tokens=True)

text = "How are you doing? Today is a beautiful day. I hope you are doing fine."
doc = nlp(text)
sentences = [sent.text for sent in doc.sents]

sentence_translations = []
for i, sentence in enumerate(sentences):
    sentence_translation = generate_response(sentence)
    sentence_translations.append(sentence_translation)

full_translation = " ".join(sentence_translations)
print(full_translation)

📚 詳細文檔

評估

評估是在Opus 100測試集上完成的。

BLEU評估結果

	四葉草（本模型）	mt0 - small	DeepL
BLEU得分	0.4816	0.0159	0.5210
一元語法準確率	0.7305	0.2350	0.7613
二元語法準確率	0.5413	0.0290	0.5853
三元語法準確率	0.4289	0.0076	0.4800
四元語法準確率	0.3417	0.0013	0.3971