s2t-wav2vec2-large-en-ar开源模型 - 免费实现英语到阿拉伯语语音转文本翻译

首页

S2t Wav2vec2 Large En Ar

由 facebook 开发

基于Transformer的端到端语音翻译模型，支持英语到阿拉伯语的语音转文本翻译

语音识别

Transformers

支持多种语言开源协议:MIT #英语-阿拉伯语语音翻译 #端到端语音转文本 #基于Transformer

下载量 62

发布时间 : 3/2/2022

模型简介

该模型是一个专为端到端语音翻译（ST）训练的语音转文本Transformer模型，采用预训练的Wav2Vec2作为编码器，搭配基于Transformer的解码器，可用于英语语音到阿拉伯语文本的翻译。

模型特点

端到端语音翻译

直接实现从英语语音到阿拉伯语文本的翻译，无需中间转录步骤

基于Wav2Vec2预训练

采用强大的Wav2Vec2语音编码器，提升模型性能

多语言支持

支持英语和阿拉伯语之间的语音翻译

模型能力

语音转文本

英语到阿拉伯语翻译

自动语音识别

使用案例

语音翻译

实时语音翻译

将英语语音实时翻译为阿拉伯语文本

会议记录翻译

将英语会议录音自动翻译为阿拉伯语文本记录

🚀 S2T2-Wav2Vec2-CoVoST2-EN-AR-ST

s2t-wav2vec2-large-en-ar 是一个用于端到端语音翻译（ST）的语音转文本Transformer模型。S2T2模型在论文 Large-Scale Self- and Semi-Supervised Learning for Speech Translation 中被提出，并在 Fairseq 中正式发布。

🚀 快速开始

本模型可用于端到端的英语语音到阿拉伯语文本的翻译。你可以在模型中心查找其他S2T2的检查点。

如何使用

由于这是一个标准的序列到序列Transformer模型，你可以通过将语音特征传递给模型，使用 generate 方法生成转录内容。

你可以通过自动语音识别（ASR）管道直接使用该模型：

from datasets import load_dataset
from transformers import pipeline

librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
asr = pipeline("automatic-speech-recognition", model="facebook/s2t-wav2vec2-large-en-ar", feature_extractor="facebook/s2t-wav2vec2-large-en-ar")

translation = asr(librispeech_en[0]["file"])

或者按以下步骤逐步使用：

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoder
from datasets import load_dataset

import soundfile as sf
model = SpeechEncoderDecoder.from_pretrained("facebook/s2t-wav2vec2-large-en-ar")
processor = Speech2Text2Processor.from_pretrained("facebook/s2t-wav2vec2-large-en-ar")

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
ds = ds.map(map_to_array)

inputs = processor(ds["speech"][0], sampling_rate=16_000, return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

✨ 主要特性

S2T2是一个基于Transformer的序列到序列（语音编码器 - 解码器）模型，专为端到端的自动语音识别（ASR）和语音翻译（ST）而设计。它使用预训练的 Wav2Vec2 作为编码器，并采用基于Transformer的解码器。该模型使用标准的自回归交叉熵损失进行训练，并以自回归的方式生成翻译内容。

📚 详细文档

评估结果

CoVoST-V2 英语到阿拉伯语的测试结果（BLEU分数）：20.2

更多信息，请查看官方论文 —— 特别是表2的第10行。

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2104-06678,
  author    = {Changhan Wang and
               Anne Wu and
               Juan Miguel Pino and
               Alexei Baevski and
               Michael Auli and
               Alexis Conneau},
  title     = {Large-Scale Self- and Semi-Supervised Learning for Speech Translation},
  journal   = {CoRR},
  volume    = {abs/2104.06678},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.06678},
  archivePrefix = {arXiv},
  eprint    = {2104.06678},
  timestamp = {Thu, 12 Aug 2021 15:37:06 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-06678.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

📄 许可证

本项目采用MIT许可证。

📦 相关信息

属性	详情
支持语言	英语、阿拉伯语
数据集	covost2、librispeech_asr
标签	音频、语音翻译、自动语音识别、speech2text2
任务类型	自动语音识别