m-ctc-t-large开源语音识别模型 - 免费支持60种语言语音识别与转写

首页

M Ctc T Large

由 speechbrain 开发

Meta AI推出的大规模多语言语音识别模型，支持60种语言，基于10亿参数Transformer编码器架构。

语音识别

Transformers

英语开源协议:Apache-2.0 #多语言语音识别 #字符级转录 #大规模Transformer

下载量 88

发布时间 : 5/27/2022

模型简介

M-CTC-T是一个多语言语音识别模型，能够将语音转换为文本，支持多种语言并保留标点符号与大小写。

模型特点

多语言支持

支持60种语言的语音识别，覆盖广泛的语种需求。

大规模训练数据

基于通用语音和大众之声语料库进行训练，数据量大且多样。

字符级转录

采用未标准化的字符级转录文本，保留标点符号与大小写。

模型能力

语音识别

多语言转录

字符级文本生成

使用案例

语音转录

多语言语音转文本

将多种语言的语音转换为文本，适用于国际化应用场景。

在通用语音测试集上字符错误率(CER)为21.4-23.3

🚀 M-CTC-T

M-CTC-T 是 Meta AI 推出的大规模多语言语音识别器。该模型是一个具有 10 亿参数的 Transformer 编码器，配备了一个针对 8065 个字符标签的 CTC 头部和一个针对 60 个语言 ID 标签的语言识别头部。它在 Common Voice（2020 年 12 月发布的 6.1 版本）和 VoxPopuli 数据集上进行训练。在这两个数据集上完成训练后，模型仅在 Common Voice 上继续训练。标签为未归一化的字符级转录（未去除标点和大小写）。该模型以 16Khz 音频信号的梅尔滤波器组特征作为输入。

模型图片

原始的 Flashlight 代码、模型检查点和 Colab 笔记本可在此处找到。

✨ 主要特性

大规模多语言语音识别能力。
基于 10 亿参数的 Transformer 编码器架构。
配备 CTC 头部和语言识别头部。

📚 详细文档

引用信息

论文
作者：Loren Lugosch、Tatiana Likhomanenko、Gabriel Synnaeve、Ronan Collobert

@article{lugosch2021pseudo,
  title={Pseudo-Labeling for Massively Multilingual Speech Recognition},
  author={Lugosch, Loren and Likhomanenko, Tatiana and Synnaeve, Gabriel and Collobert, Ronan},
  journal={ICASSP},
  year={2022}
}

贡献者

非常感谢 Chan Woo Kim 将模型从 Flashlight C++ 移植到 PyTorch。

训练方法

模型图片

有关该模型的训练方式的更多信息，请查看官方论文。

💻 使用示例

基础用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import MCTCTForCTC, MCTCTProcessor

model = MCTCTForCTC.from_pretrained("speechbrain/m-ctc-t-large")
processor = MCTCTProcessor.from_pretrained("speechbrain/m-ctc-t-large")

 # load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# feature extraction
input_features = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt").input_features 

# retrieve logits
with torch.no_grad():
    logits = model(input_features).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)