Wav2Vec2 XLS - R開源語音翻譯模型，免費將英語口語轉15種書面語言

首頁

Wav2vec2 Xls R 2b En To 15

由facebook開發

Facebook的Wav2Vec2 XLS-R模型，針對15種語言的語音翻譯任務進行了微調，能夠將英語口語翻譯為多種書面語言。

語音識別

Transformers

支持多種語言開源協議:Apache-2.0 #多語言語音翻譯 #大參數模型 #英語到15種語言

下載量 27

發布時間 : 3/2/2022

模型概述

這是一個基於SpeechEncoderDecoderModel的語音翻譯模型，能夠將英語口語翻譯為15種不同的書面語言。模型結合了強大的語音編碼器和文本解碼器，適用於多語言翻譯場景。

模型特點

多語言支持

支持將英語口語翻譯為15種不同的書面語言

大規模預訓練

基於20億參數的Wav2Vec2-XLS-R-2B模型，具有強大的語音理解能力

端到端翻譯

直接從語音到文本的翻譯，無需中間轉錄步驟

高質量翻譯

在Covost2數據集上表現出色，提供準確的翻譯結果

模型能力

英語語音識別

多語言文本翻譯

端到端語音翻譯

支持15種目標語言

使用案例

語音翻譯

即時語音翻譯

將英語口語即時翻譯為目標語言的書面文本

在Covost2數據集上表現優異

多語言會議記錄

將英語會議內容自動翻譯為多種語言的會議記錄

教育應用

語言學習輔助

幫助學習者理解英語口語並將其翻譯為母語

🚀 Wav2Vec2-XLS-R-2B-EN-15

這是Facebook基於Wav2Vec2 XLS - R微調的用於語音翻譯的模型，能將英語語音翻譯成多種書面語言。

支持語言和數據集

屬性	詳情
支持語言	多語言，包括英語（en）、德語（de）、土耳其語（tr）、波斯語（fa）、瑞典語（sv）、蒙古語（mn）、中文（zh）、威爾士語（cy）、加泰羅尼亞語（ca）、斯洛文尼亞語（sl）、愛沙尼亞語（et）、印尼語（id）、阿拉伯語（ar）、泰米爾語（ta）、拉脫維亞語（lv）、日語（ja）
數據集	common_voice、multilingual_librispeech、covost2
標籤	speech、xls_r、automatic - speech - recognition、xls_r_translation
任務類型	自動語音識別
許可證	apache - 2.0

模型架構

模型圖片

這是一個SpeechEncoderDecoderModel模型。編碼器從facebook/wav2vec2-xls-r-2b檢查點進行熱啟動，解碼器從facebook/mbart-large-50檢查點進行熱啟動。因此，該編碼器 - 解碼器模型在Covost2數據集的15個en -> {lang}翻譯對上進行了微調。

該模型可以將英語口語翻譯成以下書面語言{lang}： en -> {de, tr, fa, sv - SE, mn, zh - CN, cy, ca, sl, et, id, ar, ta, lv, ja}

更多信息，請參考官方XLS - R論文的5.1.1節。

🚀 快速開始

演示

你可以在此空間測試該模型。你可以選擇目標語言，錄製一些英語音頻，然後坐等檢查點對輸入的翻譯效果。

示例

由於這是一個標準的序列到序列的Transformer模型，你可以使用generate方法，將語音特徵傳遞給模型來生成轉錄內容。

你可以通過ASR管道直接使用該模型。默認情況下，檢查點將把英語口語翻譯成書面德語。要更改書面目標語言，你需要將正確的forced_bos_token_id傳遞給generate(...)，以使解碼器針對正確的目標語言進行條件設置。

要根據你選擇的語言ID選擇正確的forced_bos_token_id，請使用以下映射：

MAPPING = {
    "de": 250003,
    "tr": 250023,
    "fa": 250029,
    "sv": 250042,
    "mn": 250037,
    "zh": 250025,
    "cy": 250007,
    "ca": 250005,
    "sl": 250052,
    "et": 250006,
    "id": 250032,
    "ar": 250001,
    "ta": 250044,
    "lv": 250017,
    "ja": 250012,
}

例如，如果你想翻譯成瑞典語，可以這樣做：

from datasets import load_dataset
from transformers import pipeline

# select correct `forced_bos_token_id`
forced_bos_token_id = MAPPING["sv"]

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-en-to-15", feature_extractor="facebook/wav2vec2-xls-r-2b-en-to-15")

translation = asr(audio_file, forced_bos_token_id=forced_bos_token_id)

或者按以下步驟逐步操作：

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-en-to-15")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-en-to-15")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# select correct `forced_bos_token_id`
forced_bos_token_id = MAPPING["sv"]

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"], forced_bos_token_id=forced_bos_token)
transcription = processor.batch_decode(generated_ids)

🔍 結果 `en` -> `{lang}`

查看此模型在Covost2上的性能，請參考**XLS - R (2B)**行。結果圖片