🚀 Wav2Vec2-XLS-R-2b-21-EN
本項目是Facebook基於Wav2Vec2 XLS - R微調的語音翻譯模型,可實現多種語言到英語的語音翻譯,為語音翻譯領域提供了強大的工具,能有效提升跨語言交流的效率。
🚀 快速開始
本模型可直接在模型卡片的語音識別小部件上進行測試!你可以用支持的語言錄製一些音頻,或者選擇一個示例音頻文件,來查看該模型對輸入內容的翻譯效果。
✨ 主要特性
- 多語言支持:能夠處理多種語言的語音輸入,包括法語、德語、西班牙語等21種語言到英語的翻譯。
- 強大的架構:採用SpeechEncoderDecoderModel模型架構,編碼器基於[
facebook/wav2vec2 - xls - r - 2b
](https://huggingface.co/facebook/wav2vec2 - xls - r - 2b)檢查點預熱啟動,解碼器基於[facebook/mbart - large - 50
](https://huggingface.co/facebook/mbart - large - 50)檢查點,在Covost2數據集上進行微調。
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face相關庫的安裝方式,確保安裝datasets
、transformers
等依賴庫。
💻 使用示例
基礎用法
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")
translation = asr(audio_file)
高級用法
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
📚 詳細文檔
本模型可以實現從以下口語語言到英語(en
)的翻譯:
{fr
, de
, es
, ca
, it
, ru
, zh-CN
, pt
, fa
, et
, mn
, nl
, tr
, ar
, sv-SE
, lv
, sl
, ta
, ja
, id
, cy
} -> en
更多信息,請參考官方XLS - R論文的第 5.1.2 節。
📈 結果展示
查看此模型在Covost2上的性能,請參考XLS - R (2B) 行。

🔗 更多相關模型
📄 許可證
本項目採用Apache - 2.0許可證。
📋 信息表格
屬性 |
詳情 |
支持語言 |
法語、德語、西班牙語、加泰羅尼亞語、意大利語、俄語、中文(中國)、葡萄牙語、波斯語、愛沙尼亞語、蒙古語、荷蘭語、土耳其語、阿拉伯語、瑞典語(瑞典)、拉脫維亞語、斯洛文尼亞語、泰米爾語、日語、印尼語、威爾士語到英語的翻譯 |
訓練數據集 |
common_voice、multilingual_librispeech、covost2 |
模型類型 |
SpeechEncoderDecoderModel |
相關標籤 |
語音、xls_r、自動語音識別、xls_r翻譯 |
任務類型 |
自動語音識別 |