Wav2Vec2 XLS - R開源語音翻譯模型 - 免費完成多語言語音到英語翻譯

首頁

Wav2vec2 Xls R 2b 21 To En

由facebook開發

Facebook的Wav2Vec2 XLS-R模型，用於多語言語音到英語的翻譯任務。

語音識別

Transformers

支持多種語言開源協議:Apache-2.0 #多語言語音翻譯 #21種語言轉英語 #大規模語音模型

下載量 38

發布時間 : 3/2/2022

模型概述

該模型是一個基於Wav2Vec2 XLS-R架構的語音翻譯模型，能夠將21種語言的語音輸入翻譯為英語文本。

模型特點

多語言支持

支持21種不同語言的語音輸入翻譯為英語

大規模模型

基於20億參數的Wav2Vec2 XLS-R架構，提供高質量的翻譯效果

端到端翻譯

直接從語音輸入到英語文本的端到端翻譯，無需中間轉錄步驟

模型能力

語音翻譯

多語言處理

自動語音識別

使用案例

語音翻譯服務

即時語音翻譯

將會議或對話中的外語語音即時翻譯為英語

語音內容本地化

將外語播客、視頻等內容翻譯為英語文本

輔助技術

無障礙應用

幫助聽力障礙者理解外語語音內容

🚀 Wav2Vec2-XLS-R-2b-21-EN

本項目是Facebook基於Wav2Vec2 XLS - R微調的語音翻譯模型，可實現多種語言到英語的語音翻譯，為語音翻譯領域提供了強大的工具，能有效提升跨語言交流的效率。

🚀 快速開始

本模型可直接在模型卡片的語音識別小部件上進行測試！你可以用支持的語言錄製一些音頻，或者選擇一個示例音頻文件，來查看該模型對輸入內容的翻譯效果。

✨ 主要特性

多語言支持：能夠處理多種語言的語音輸入，包括法語、德語、西班牙語等21種語言到英語的翻譯。
強大的架構：採用SpeechEncoderDecoderModel模型架構，編碼器基於[facebook/wav2vec2 - xls - r - 2b](https://huggingface.co/facebook/wav2vec2 - xls - r - 2b)檢查點預熱啟動，解碼器基於[facebook/mbart - large - 50](https://huggingface.co/facebook/mbart - large - 50)檢查點，在Covost2數據集上進行微調。

📦 安裝指南

文檔未提及具體安裝步驟，可參考Hugging Face相關庫的安裝方式，確保安裝datasets、transformers等依賴庫。

💻 使用示例

基礎用法

from datasets import load_dataset
from transformers import pipeline

# 替換以下行以加載你選擇的音頻文件
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")

translation = asr(audio_file)

高級用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

📚 詳細文檔

本模型可以實現從以下口語語言到英語（en）的翻譯： {fr, de, es, ca, it, ru, zh-CN, pt, fa, et, mn, nl, tr, ar, sv-SE, lv, sl, ta, ja, id, cy} -> en

更多信息，請參考官方XLS - R論文的第 5.1.2 節。

📈 結果展示

查看此模型在Covost2上的性能，請參考XLS - R (2B) 行。

結果圖像

🔗 更多相關模型

📄 許可證

本項目採用Apache - 2.0許可證。

📋 信息表格

屬性	詳情
支持語言	法語、德語、西班牙語、加泰羅尼亞語、意大利語、俄語、中文（中國）、葡萄牙語、波斯語、愛沙尼亞語、蒙古語、荷蘭語、土耳其語、阿拉伯語、瑞典語（瑞典）、拉脫維亞語、斯洛文尼亞語、泰米爾語、日語、印尼語、威爾士語到英語的翻譯
訓練數據集	common_voice、multilingual_librispeech、covost2
模型類型	SpeechEncoderDecoderModel
相關標籤	語音、xls_r、自動語音識別、xls_r翻譯
任務類型	自動語音識別