Wav2Vec2 XLS-R開源模型 - 免費部署實現多語言語音到英語翻譯

首頁

Wav2vec2 Xls R 1b 21 To En

由facebook開發

Facebook的Wav2Vec2 XLS-R模型，用於多語言語音到英語的翻譯任務

語音識別

Transformers

支持多種語言開源協議:Apache-2.0 #多語言語音翻譯 #21種語言轉英語 #大規模預訓練

下載量 511

發布時間 : 3/2/2022

模型概述

這是一個基於SpeechEncoderDecoder架構的模型，能夠將21種語言的語音翻譯成英語。編碼器基於facebook/wav2vec2-xls-r-1b，解碼器基於facebook/mbart-large-50，在Covost2數據集上進行了微調。

模型特點

多語言支持

支持21種語言到英語的語音翻譯

大規模預訓練

基於20億參數的XLS-R模型，具有強大的語音特徵提取能力

端到端翻譯

直接從語音到目標語言文本的端到端翻譯

模型能力

語音識別

多語言翻譯

語音到文本轉換

使用案例

語音翻譯

即時語音翻譯

將會議、演講等場合的即時語音翻譯成英語

在Covost2數據集上表現優異

多語言語音助手

為語音助手提供多語言輸入支持

🚀 Wav2Vec2-XLS-R-2b-21-EN

Wav2Vec2-XLS-R-2b-21-EN 是 Facebook 基於 XLS-R 模型微調得到的用於語音翻譯的模型，可實現多種語言到英語的語音翻譯。

🚀 快速開始

演示

你可以直接在本模型卡片的語音識別小部件上測試該模型！只需用支持的語言錄製一些音頻，或者選擇一個示例音頻文件，就能查看該模型對輸入內容的翻譯效果。

示例

由於這是一個標準的序列到序列的Transformer模型，你可以使用generate方法，將語音特徵傳遞給模型來生成轉錄內容。

你可以通過自動語音識別（ASR）管道直接使用該模型：

from datasets import load_dataset
from transformers import pipeline

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-1b-21-to-en")

translation = asr(audio_file)

或者按以下步驟逐步使用：

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

✨ 主要特性

多語言支持：該模型支持從以下多種口語語言翻譯為英語（en）：fr（法語）、de（德語）、es（西班牙語）、ca（加泰羅尼亞語）、it（意大利語）、ru（俄語）、zh-CN（中文）、pt（葡萄牙語）、fa（波斯語）、et（愛沙尼亞語）、mn（蒙古語）、nl（荷蘭語）、tr（土耳其語）、ar（阿拉伯語）、sv-SE（瑞典語）、lv（拉脫維亞語）、sl（斯洛文尼亞語）、ta（泰米爾語）、ja（日語）、id（印尼語）、cy（威爾士語）。
模型架構：這是一個 SpeechEncoderDecoderModel 模型。編碼器從 facebook/wav2vec2-xls-r-1b 檢查點進行熱啟動，解碼器從 facebook/mbart-large-50 檢查點進行熱啟動。隨後，該編碼器 - 解碼器模型在 Covost2 數據集的 21 個 {lang} -> en 翻譯對上進行了微調。

📚 詳細文檔

模型信息

屬性	詳情
支持語言	法語、德語、西班牙語、加泰羅尼亞語、意大利語、俄語、中文、葡萄牙語、波斯語、愛沙尼亞語、蒙古語、荷蘭語、土耳其語、阿拉伯語、瑞典語、拉脫維亞語、斯洛文尼亞語、泰米爾語、日語、印尼語、威爾士語到英語的翻譯
數據集	common_voice、multilingual_librispeech、covost2
標籤	語音、xls_r、自動語音識別、xls_r 翻譯
管道標籤	自動語音識別
許可證	apache - 2.0