🚀 Wav2Vec2-XLS-R-2b-21-EN
Wav2Vec2-XLS-R-2b-21-EN 是 Facebook 基於 XLS-R 模型微調得到的用於語音翻譯的模型,可實現多種語言到英語的語音翻譯。
🚀 快速開始
演示
你可以直接在本模型卡片的語音識別小部件上測試該模型!只需用支持的語言錄製一些音頻,或者選擇一個示例音頻文件,就能查看該模型對輸入內容的翻譯效果。
示例
由於這是一個標準的序列到序列的Transformer模型,你可以使用generate
方法,將語音特徵傳遞給模型來生成轉錄內容。
你可以通過自動語音識別(ASR)管道直接使用該模型:
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-1b-21-to-en")
translation = asr(audio_file)
或者按以下步驟逐步使用:
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
✨ 主要特性
📚 詳細文檔
模型信息
屬性 |
詳情 |
支持語言 |
法語、德語、西班牙語、加泰羅尼亞語、意大利語、俄語、中文、葡萄牙語、波斯語、愛沙尼亞語、蒙古語、荷蘭語、土耳其語、阿拉伯語、瑞典語、拉脫維亞語、斯洛文尼亞語、泰米爾語、日語、印尼語、威爾士語到英語的翻譯 |
數據集 |
common_voice、multilingual_librispeech、covost2 |
標籤 |
語音、xls_r、自動語音識別、xls_r 翻譯 |
管道標籤 |
自動語音識別 |
許可證 |
apache - 2.0 |
更多信息
如需更多信息,請參考 官方 XLS - R 論文 的第 5.1.2 節。
🔍 結果 {lang}
-> en
查看 Covost2 上該模型的性能,請參考 XLS - R (1B) 這一行。

🔗 更多用於 {lang}
-> en
語音翻譯的 XLS - R 模型
📄 許可證
本模型使用的許可證為 apache - 2.0。