🚀 Wav2Vec2-XLS-R-2b-21-EN
本项目是Facebook基于Wav2Vec2 XLS - R微调的语音翻译模型,可实现多种语言到英语的语音翻译,为语音翻译领域提供了强大的工具,能有效提升跨语言交流的效率。
🚀 快速开始
本模型可直接在模型卡片的语音识别小部件上进行测试!你可以用支持的语言录制一些音频,或者选择一个示例音频文件,来查看该模型对输入内容的翻译效果。
✨ 主要特性
- 多语言支持:能够处理多种语言的语音输入,包括法语、德语、西班牙语等21种语言到英语的翻译。
- 强大的架构:采用SpeechEncoderDecoderModel模型架构,编码器基于[
facebook/wav2vec2 - xls - r - 2b
](https://huggingface.co/facebook/wav2vec2 - xls - r - 2b)检查点预热启动,解码器基于[facebook/mbart - large - 50
](https://huggingface.co/facebook/mbart - large - 50)检查点,在Covost2数据集上进行微调。
📦 安装指南
文档未提及具体安装步骤,可参考Hugging Face相关库的安装方式,确保安装datasets
、transformers
等依赖库。
💻 使用示例
基础用法
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")
translation = asr(audio_file)
高级用法
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
📚 详细文档
本模型可以实现从以下口语语言到英语(en
)的翻译:
{fr
, de
, es
, ca
, it
, ru
, zh-CN
, pt
, fa
, et
, mn
, nl
, tr
, ar
, sv-SE
, lv
, sl
, ta
, ja
, id
, cy
} -> en
更多信息,请参考官方XLS - R论文的第 5.1.2 节。
📈 结果展示
查看此模型在Covost2上的性能,请参考XLS - R (2B) 行。

🔗 更多相关模型
📄 许可证
本项目采用Apache - 2.0许可证。
📋 信息表格
属性 |
详情 |
支持语言 |
法语、德语、西班牙语、加泰罗尼亚语、意大利语、俄语、中文(中国)、葡萄牙语、波斯语、爱沙尼亚语、蒙古语、荷兰语、土耳其语、阿拉伯语、瑞典语(瑞典)、拉脱维亚语、斯洛文尼亚语、泰米尔语、日语、印尼语、威尔士语到英语的翻译 |
训练数据集 |
common_voice、multilingual_librispeech、covost2 |
模型类型 |
SpeechEncoderDecoderModel |
相关标签 |
语音、xls_r、自动语音识别、xls_r翻译 |
任务类型 |
自动语音识别 |