xlm-roberta-large-qe-v1开源模型 - 支持多语言文本质量评分的机器翻译评估工具

首页

Xlm Roberta Large Qe V1

由 ymoslem 开发

基于XLM-RoBERTa-large微调的机器翻译质量评估模型，支持多语言文本质量评分

质量评估

Transformers

支持多种语言开源协议:MIT #无参考质量评估 #多语言MT评估 #XLM-RoBERTa微调

下载量 21

发布时间 : 1/15/2025

模型简介

该模型用于机器翻译系统的无参考质量评估(QE)，能够自动预测翻译文本的质量分数，无需人工参考译文。

模型特点

多语言支持

支持26种语言的翻译质量评估，包括低资源语言

无参考评估

无需人工参考译文即可预测翻译质量分数

高效微调

基于大规模预训练模型XLM-RoBERTa进行针对性微调

模型能力

机器翻译质量评分

多语言文本分析

回归预测

使用案例

机器翻译系统

翻译质量监控

自动评估翻译系统的输出质量

皮尔逊相关系数0.422

翻译系统优化

识别翻译质量差的片段进行针对性改进

语言服务

翻译服务评估

自动化评估外包翻译服务的质量

🚀 机器翻译质量评估模型

本模型用于机器翻译系统的无参考质量评估（QE），基于FacebookAI/xlm-roberta-large模型在ymoslem/wmt-da-human-evaluation数据集上微调得到，能有效评估机器翻译的质量。

🚀 快速开始

安装依赖库

pip3 install --upgrade datasets accelerate transformers
pip3 install --upgrade flash_attn triton

加载测试数据集

from datasets import load_dataset

test_dataset = load_dataset("ymoslem/wmt-da-human-evaluation",
                             split="test",
                             trust_remote_code=True
                            )
print(test_dataset)

加载模型和分词器

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

# Load the fine-tuned model and tokenizer
model_name = "ymoslem/ModernBERT-large-qe-v1"
model = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Move model to GPU if available
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
model.eval()

准备数据集

sep_token = tokenizer.sep_token
input_test_texts = [f"{src} {sep_token} {tgt}" for src, tgt in zip(test_dataset["src"], test_dataset["mt"])]

生成预测结果

简单方式

from transformers import pipeline

classifier = pipeline("text-classification",
                      model=model_name,
                      tokenizer=tokenizer,
                      device=0,
                     )

predictions = classifier(input_test_texts,
                         batch_size=128,
                         truncation=True,
                         padding="max_length",
                         max_length=tokenizer.model_max_length,
                       )
predictions = [prediction["score"] for prediction in predictions]

复杂方式

from torch.utils.data import DataLoader
import torch
from tqdm.auto import tqdm

# Tokenization function
def process_batch(batch, tokenizer, device):
    sep_token = tokenizer.sep_token
    input_texts = [f"{src} {sep_token} {tgt}" for src, tgt in zip(batch["src"], batch["mt"])]
    tokens = tokenizer(input_texts,
                       truncation=True,
                       padding="max_length",
                       max_length=tokenizer.model_max_length,
                       return_tensors="pt",
                      ).to(device)
    return tokens
    


# Create a DataLoader for batching
test_dataloader = DataLoader(test_dataset, 
                             batch_size=128,   # Adjust batch size as needed
                             shuffle=False)


# List to store all predictions
predictions = []

with torch.no_grad():
    for batch in tqdm(test_dataloader, desc="Inference Progress", unit="batch"):

        tokens = process_batch(batch, tokenizer, device)
        
        # Forward pass: Generate model's logits
        outputs = model(**tokens)

        # Get logits (predictions)
        logits = outputs.logits

        # Extract the regression predicted values
        batch_predictions = logits.squeeze()

        # Extend the list with the predictions
        predictions.extend(batch_predictions.tolist())

✨ 主要特性

基于FacebookAI/xlm-roberta-large模型进行微调，适用于多语言场景，支持包括英语、中文、法语等在内的多种语言。
用于机器翻译的无参考质量评估，可有效评估机器翻译的质量。

📦 安装指南

pip3 install --upgrade datasets accelerate transformers
pip3 install --upgrade flash_attn triton

💻 使用示例

基础用法

# 加载测试数据集
from datasets import load_dataset

test_dataset = load_dataset("ymoslem/wmt-da-human-evaluation",
                             split="test",
                             trust_remote_code=True
                            )
print(test_dataset)

# 加载模型和分词器
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

model_name = "ymoslem/ModernBERT-large-qe-v1"
model = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
model.eval()

# 准备数据集
sep_token = tokenizer.sep_token
input_test_texts = [f"{src} {sep_token} {tgt}" for src, tgt in zip(test_dataset["src"], test_dataset["mt"])]

# 生成预测结果
from transformers import pipeline

classifier = pipeline("text-classification",
                      model=model_name,
                      tokenizer=tokenizer,
                      device=0,
                     )

predictions = classifier(input_test_texts,
                         batch_size=128,
                         truncation=True,
                         padding="max_length",
                         max_length=tokenizer.model_max_length,
                       )
predictions = [prediction["score"] for prediction in predictions]

高级用法

# 加载测试数据集
from datasets import load_dataset

test_dataset = load_dataset("ymoslem/wmt-da-human-evaluation",
                             split="test",
                             trust_remote_code=True
                            )
print(test_dataset)

# 加载模型和分词器
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

model_name = "ymoslem/ModernBERT-large-qe-v1"
model = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
model.eval()

# 准备数据集
sep_token = tokenizer.sep_token
input_test_texts = [f"{src} {sep_token} {tgt}" for src, tgt in zip(test_dataset["src"], test_dataset["mt"])]

# 生成预测结果
from torch.utils.data import DataLoader
import torch
from tqdm.auto import tqdm

# Tokenization function
def process_batch(batch, tokenizer, device):
    sep_token = tokenizer.sep_token
    input_texts = [f"{src} {sep_token} {tgt}" for src, tgt in zip(batch["src"], batch["mt"])]
    tokens = tokenizer(input_texts,
                       truncation=True,
                       padding="max_length",
                       max_length=tokenizer.model_max_length,
                       return_tensors="pt",
                      ).to(device)
    return tokens
    


# Create a DataLoader for batching
test_dataloader = DataLoader(test_dataset, 
                             batch_size=128,   # Adjust batch size as needed
                             shuffle=False)


# List to store all predictions
predictions = []

with torch.no_grad():
    for batch in tqdm(test_dataloader, desc="Inference Progress", unit="batch"):

        tokens = process_batch(batch, tokenizer, device)
        
        # Forward pass: Generate model's logits
        outputs = model(**tokens)

        # Get logits (predictions)
        logits = outputs.logits

        # Extract the regression predicted values
        batch_predictions = logits.squeeze()

        # Extend the list with the predictions
        predictions.extend(batch_predictions.tolist())

📚 详细文档

模型描述

本模型是在FacebookAI/xlm-roberta-large基础上，针对ymoslem/wmt-da-human-evaluation数据集进行微调的机器翻译质量评估模型，用于无参考的机器翻译质量评估。

训练过程

训练超参数

学习率（learning_rate）：8e-05
训练批次大小（train_batch_size）：64
评估批次大小（eval_batch_size）：64
随机种子（seed）：42
优化器（optimizer）：使用OptimizerNames.ADAMW_TORCH_FUSED，betas=(0.9,0.999)，epsilon=1e-08
学习率调度器类型（lr_scheduler_type）：线性
训练步数（training_steps）：20000

训练结果

训练损失	轮数	步数	验证损失
0.0743	0.0502	1000	0.0598
0.0853	0.1004	2000	0.0745
0.0829	0.1506	3000	0.0726
0.0814	0.2008	4000	0.0872
0.0805	0.2509	5000	0.0715
0.0782	0.3011	6000	0.0819
0.0789	0.3513	7000	0.0733
0.0791	0.4015	8000	0.0748
0.0787	0.4517	9000	0.0759
0.0761	0.5019	10000	0.0725
0.0746	0.5521	11000	0.0745
0.0762	0.6023	12000	0.0750
0.077	0.6524	13000	0.0725
0.0777	0.7026	14000	0.0737
0.0764	0.7528	15000	0.0745
0.0781	0.8030	16000	0.0750
0.0748	0.8532	17000	0.0765
0.0768	0.9034	18000	0.0750
0.0737	0.9536	19000	0.0759
0.0769	1.0038	20000	0.0752

框架版本

Transformers：4.48.0
Pytorch：2.4.1+cu124
Datasets：3.2.0
Tokenizers：0.21.0

评估结果

本模型在评估集上取得了以下结果：

损失（Loss）：0.0752 | 指标名称 | 指标类型 | 值 | | :------: | :------: | :--: | | 皮尔逊相关系数（Pearson Correlation） | Pearson | 0.422 | | 平均绝对误差（Mean Absolute Error） | MAE | 0.196 | | 均方根误差（Root Mean Squared Error） | RMSE | 0.245 | | 决定系数（R-Squared） | R2 | 0.245 |

🔧 技术细节

本模型基于FacebookAI/xlm-roberta-large进行微调，使用了ymoslem/wmt-da-human-evaluation数据集。在训练过程中，采用了特定的超参数和优化器，以提高模型的性能。在推理阶段，使用了transformers库的pipeline和AutoModelForSequenceClassification等工具进行预测。

📄 许可证

本项目采用MIT许可证。

信息表格

属性	详情
模型类型	用于机器翻译质量评估的序列分类模型
训练数据	ymoslem/wmt-da-human-evaluation
基础模型	FacebookAI/xlm-roberta-large
支持语言	多语言（包括bn、cs、de、en等）
评估指标	困惑度（perplexity）、平均绝对误差（mae）、决定系数（r_squared）
许可证	MIT