s2t-wav2vec2-large-en-de開源語音翻譯模型 - 免費實現英語到德語語音互譯

首頁

S2t Wav2vec2 Large En De

由facebook開發

基於Transformer的端到端語音翻譯模型，專為英語到德語的語音翻譯設計

語音識別

Transformers

支持多種語言開源協議:MIT #端到端語音翻譯 #英德語音轉文本 #基於Wav2Vec2

下載量 817

發布時間 : 3/2/2022

模型概述

該模型是一個基於Transformer的序列到序列模型，結合預訓練的Wav2Vec2編碼器，用於英語語音到德語文本的端到端翻譯。

模型特點

端到端語音翻譯

直接從英語語音輸入生成德語文本輸出，無需中間轉錄步驟

基於Wav2Vec2預訓練

利用大規模自監督預訓練的Wav2Vec2作為語音編碼器，提高模型性能

Transformer架構

採用Transformer解碼器，實現高質量的序列生成

模型能力

英語語音識別

英語到德語語音翻譯

端到端語音處理

使用案例

語音翻譯服務

即時語音翻譯

將英語語音即時翻譯為德語文本

在CoVoST-V2測試集上達到26.5 BLEU分數

會議記錄翻譯

將英語會議錄音自動翻譯為德語會議紀要

語音輔助技術

多語言語音助手

支持英語輸入和德語輸出的語音助手功能

🚀 S2T2-Wav2Vec2-CoVoST2-EN-DE-ST

s2t-wav2vec2-large-en-de 是一個用於端到端語音翻譯（ST）的語音轉文本Transformer模型。S2T2模型在論文 Large-Scale Self- and Semi-Supervised Learning for Speech Translation 中被提出，並在 Fairseq 中正式發佈。

✨ 主要特性

多語言支持：支持英語和德語，適用於英語語音到德語文本的翻譯任務。
端到端處理：能夠直接將語音轉換為文本，無需額外的中間步驟。
基於Transformer架構：利用Transformer的強大能力，實現高效的語音處理和翻譯。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考相關依賴庫（如 transformers、datasets 等）的官方文檔進行安裝。

💻 使用示例

基礎用法

from datasets import load_dataset
from transformers import pipeline

librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
asr = pipeline("automatic-speech-recognition", model="facebook/s2t-wav2vec2-large-en-de", feature_extractor="facebook/s2t-wav2vec2-large-en-de")

translation_de = asr(librispeech_en[0]["file"])

高級用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoder
from datasets import load_dataset

import soundfile as sf
model = SpeechEncoderDecoder.from_pretrained("facebook/s2t-wav2vec2-large-en-de")
processor = Speech2Text2Processor.from_pretrained("facebook/s2t-wav2vec2-large-en-de")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
ds = ds.map(map_to_array)

inputs = processor(ds["speech"][0], sampling_rate=16_000, return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

📚 詳細文檔

模型描述

S2T2是一個基於Transformer的序列到序列（語音編碼器 - 解碼器）模型，專為端到端自動語音識別（ASR）和語音翻譯（ST）而設計。它使用預訓練的 Wav2Vec2 作為編碼器，並採用基於Transformer的解碼器。該模型使用標準的自迴歸交叉熵損失進行訓練，並以自迴歸方式生成翻譯結果。

預期用途和限制

此模型可用於端到端的英語語音到德語文本的翻譯。你可以在模型中心查找其他S2T2檢查點。

評估結果

CoVoST-V2 英語到德語的測試結果（BLEU分數）：26.5。更多信息請參考官方論文 - 特別是表2的第10行。

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2104-06678,
  author    = {Changhan Wang and
               Anne Wu and
               Juan Miguel Pino and
               Alexei Baevski and
               Michael Auli and
               Alexis Conneau},
  title     = {Large-Scale Self- and Semi-Supervised Learning for Speech Translation},
  journal   = {CoRR},
  volume    = {abs/2104.06678},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.06678},
  archivePrefix = {arXiv},
  eprint    = {2104.06678},
  timestamp = {Thu, 12 Aug 2021 15:37:06 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-06678.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

📄 許可證

本項目採用MIT許可證。

屬性	詳情
支持語言	英語、德語
數據集	covost2、librispeech_asr
標籤	音頻、語音翻譯、自動語音識別、speech2text2
許可證	MIT
管道標籤	自動語音識別