Wav2Vec2 XLS - R开源语音翻译模型 - 免费完成多语言语音到英语翻译

首页

Wav2vec2 Xls R 2b 21 To En

由 facebook 开发

Facebook的Wav2Vec2 XLS-R模型，用于多语言语音到英语的翻译任务。

语音识别

Transformers

支持多种语言开源协议:Apache-2.0 #多语言语音翻译 #21种语言转英语 #大规模语音模型

下载量 38

发布时间 : 3/2/2022

模型简介

该模型是一个基于Wav2Vec2 XLS-R架构的语音翻译模型，能够将21种语言的语音输入翻译为英语文本。

模型特点

多语言支持

支持21种不同语言的语音输入翻译为英语

大规模模型

基于20亿参数的Wav2Vec2 XLS-R架构，提供高质量的翻译效果

端到端翻译

直接从语音输入到英语文本的端到端翻译，无需中间转录步骤

模型能力

语音翻译

多语言处理

自动语音识别

使用案例

语音翻译服务

实时语音翻译

将会议或对话中的外语语音实时翻译为英语

语音内容本地化

将外语播客、视频等内容翻译为英语文本

辅助技术

无障碍应用

帮助听力障碍者理解外语语音内容

🚀 Wav2Vec2-XLS-R-2b-21-EN

本项目是Facebook基于Wav2Vec2 XLS - R微调的语音翻译模型，可实现多种语言到英语的语音翻译，为语音翻译领域提供了强大的工具，能有效提升跨语言交流的效率。

🚀 快速开始

本模型可直接在模型卡片的语音识别小部件上进行测试！你可以用支持的语言录制一些音频，或者选择一个示例音频文件，来查看该模型对输入内容的翻译效果。

✨ 主要特性

多语言支持：能够处理多种语言的语音输入，包括法语、德语、西班牙语等21种语言到英语的翻译。
强大的架构：采用SpeechEncoderDecoderModel模型架构，编码器基于[facebook/wav2vec2 - xls - r - 2b](https://huggingface.co/facebook/wav2vec2 - xls - r - 2b)检查点预热启动，解码器基于[facebook/mbart - large - 50](https://huggingface.co/facebook/mbart - large - 50)检查点，在Covost2数据集上进行微调。

📦 安装指南

文档未提及具体安装步骤，可参考Hugging Face相关库的安装方式，确保安装datasets、transformers等依赖库。

💻 使用示例

基础用法

from datasets import load_dataset
from transformers import pipeline

# 替换以下行以加载你选择的音频文件
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")

translation = asr(audio_file)

高级用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

📚 详细文档

本模型可以实现从以下口语语言到英语（en）的翻译： {fr, de, es, ca, it, ru, zh-CN, pt, fa, et, mn, nl, tr, ar, sv-SE, lv, sl, ta, ja, id, cy} -> en

更多信息，请参考官方XLS - R论文的第 5.1.2 节。

📈 结果展示

查看此模型在Covost2上的性能，请参考XLS - R (2B) 行。

结果图像

🔗 更多相关模型

📄 许可证

本项目采用Apache - 2.0许可证。

📋 信息表格

属性	详情
支持语言	法语、德语、西班牙语、加泰罗尼亚语、意大利语、俄语、中文（中国）、葡萄牙语、波斯语、爱沙尼亚语、蒙古语、荷兰语、土耳其语、阿拉伯语、瑞典语（瑞典）、拉脱维亚语、斯洛文尼亚语、泰米尔语、日语、印尼语、威尔士语到英语的翻译
训练数据集	common_voice、multilingual_librispeech、covost2
模型类型	SpeechEncoderDecoderModel
相关标签	语音、xls_r、自动语音识别、xls_r翻译
任务类型	自动语音识别