Meta AI开源mctct-large语音识别模型 - 支持60种语言字符级转录

首页

Mctct Large

由 cwkeam 开发

Meta AI推出的大规模多语言语音识别模型，具有10亿参数，支持60种语言的字符级转录

语音识别

Transformers

英语开源协议:Apache-2.0 #多语言语音识别 #字符级转录 #大规模Transformer

下载量 21

发布时间 : 5/5/2022

模型简介

M-CTC-T是一个基于Transformer编码器的大规模多语言语音识别模型，配备CTC头部和语言识别头部，能够处理60种语言的语音输入并输出字符级转录文本（保留标点符号和大小写）。

模型特点

多语言支持

支持60种语言的语音识别，具有语言识别能力

大规模训练

基于10亿参数量的Transformer架构，训练数据来自Common Voice和VoxPopuli

字符级转录

输出保留原始文本的标点符号和大小写格式

端到端模型

直接从16kHz音频信号提取的梅尔滤波器组特征进行识别

模型能力

多语言语音识别

语言识别

字符级文本转录

使用案例

语音转文字

会议记录自动转录

将多语言会议录音自动转换为文字记录

语音助手

支持多语言的语音指令识别

语音分析

多语言内容分析

分析不同语言的语音内容

🚀 M-CTC-T

M-CTC-T 是 Meta AI 推出的大规模多语言语音识别器。该模型是一个具有 10 亿参数的 Transformer 编码器，配备了一个针对 8065 个字符标签的 CTC 头部，以及一个针对 60 种语言 ID 标签的语言识别头部。它能有效解决多语言语音识别难题，为全球不同语言的语音处理提供了强大工具。

🚀 快速开始

M-CTC-T 是 Meta AI 研发的大规模多语言语音识别器。此模型为 10 亿参数的 Transformer 编码器，带有针对 8065 个字符标签的 CTC 头部和针对 60 种语言 ID 标签的语言识别头部。它在 Common Voice（版本 6.1，2020 年 12 月发布）和 VoxPopuli 上进行训练，之后仅在 Common Voice 上继续训练。标签为未归一化的字符级转录（未去除标点和大小写）。模型的输入为 16Khz 音频信号的梅尔滤波器组特征。

模型图片

原始的 Flashlight 代码、模型检查点和 Colab 笔记本可在此处找到。

✨ 主要特性

多语言支持：能够识别多种语言，适用于不同语言环境的语音识别任务。
大规模参数：拥有 10 亿参数的 Transformer 编码器，提供强大的识别能力。
双头部设计：CTC 头部和语言识别头部结合，提高识别准确性和语言判断能力。

💻 使用示例

基础用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import MCTCTForCTC, MCTCTProcessor

model = MCTCTForCTC.from_pretrained("speechbrain/mctct-large")
processor = MCTCTProcessor.from_pretrained("speechbrain/mctct-large")

 # load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# tokenize
input_features = processor(ds[0]["audio"]["array"], return_tensors="pt").input_features 

# retrieve logits
logits = model(input_features).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

结果展示

Common Voice 的结果，按所有语言平均：

字符错误率 (CER):

验证集	测试集
21.4	23.3

📚 详细文档

引用信息

论文

作者: Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert

@article{lugosch2021pseudo,
  title={Pseudo-Labeling for Massively Multilingual Speech Recognition},
  author={Lugosch, Loren and Likhomanenko, Tatiana and Synnaeve, Gabriel and Collobert, Ronan},
  journal={ICASSP},
  year={2022}
}

特别感谢 Chan Woo Kim 和 Patrick von Platen 将模型从 Flashlight 移植到 PyTorch。