🚀 Wav2Vec2-XLS-R-2b-21-EN
Wav2Vec2-XLS-R-2b-21-EN 是 Facebook 基于 XLS-R 模型微调得到的用于语音翻译的模型,可实现多种语言到英语的语音翻译。
🚀 快速开始
演示
你可以直接在本模型卡片的语音识别小部件上测试该模型!只需用支持的语言录制一些音频,或者选择一个示例音频文件,就能查看该模型对输入内容的翻译效果。
示例
由于这是一个标准的序列到序列的Transformer模型,你可以使用generate
方法,将语音特征传递给模型来生成转录内容。
你可以通过自动语音识别(ASR)管道直接使用该模型:
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-1b-21-to-en")
translation = asr(audio_file)
或者按以下步骤逐步使用:
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
✨ 主要特性
📚 详细文档
模型信息
属性 |
详情 |
支持语言 |
法语、德语、西班牙语、加泰罗尼亚语、意大利语、俄语、中文、葡萄牙语、波斯语、爱沙尼亚语、蒙古语、荷兰语、土耳其语、阿拉伯语、瑞典语、拉脱维亚语、斯洛文尼亚语、泰米尔语、日语、印尼语、威尔士语到英语的翻译 |
数据集 |
common_voice、multilingual_librispeech、covost2 |
标签 |
语音、xls_r、自动语音识别、xls_r 翻译 |
管道标签 |
自动语音识别 |
许可证 |
apache - 2.0 |
更多信息
如需更多信息,请参考 官方 XLS - R 论文 的第 5.1.2 节。
🔍 结果 {lang}
-> en
查看 Covost2 上该模型的性能,请参考 XLS - R (1B) 这一行。

🔗 更多用于 {lang}
-> en
语音翻译的 XLS - R 模型
📄 许可证
本模型使用的许可证为 apache - 2.0。