m-ctc-t-large開源語音識別模型 - 免費支持60種語言語音識別與轉寫

首頁

M Ctc T Large

由speechbrain開發

Meta AI推出的大規模多語言語音識別模型，支持60種語言，基於10億參數Transformer編碼器架構。

語音識別

Transformers

英語開源協議:Apache-2.0 #多語言語音識別 #字符級轉錄 #大規模Transformer

下載量 88

發布時間 : 5/27/2022

模型概述

M-CTC-T是一個多語言語音識別模型，能夠將語音轉換為文本，支持多種語言並保留標點符號與大小寫。

模型特點

多語言支持

支持60種語言的語音識別，覆蓋廣泛的語種需求。

大規模訓練數據

基於通用語音和大眾之聲語料庫進行訓練，數據量大且多樣。

字符級轉錄

採用未標準化的字符級轉錄文本，保留標點符號與大小寫。

模型能力

語音識別

多語言轉錄

字符級文本生成

使用案例

語音轉錄

多語言語音轉文本

將多種語言的語音轉換為文本，適用於國際化應用場景。

在通用語音測試集上字符錯誤率(CER)為21.4-23.3

🚀 M-CTC-T

M-CTC-T 是 Meta AI 推出的大規模多語言語音識別器。該模型是一個具有 10 億參數的 Transformer 編碼器，配備了一個針對 8065 個字符標籤的 CTC 頭部和一個針對 60 個語言 ID 標籤的語言識別頭部。它在 Common Voice（2020 年 12 月發佈的 6.1 版本）和 VoxPopuli 數據集上進行訓練。在這兩個數據集上完成訓練後，模型僅在 Common Voice 上繼續訓練。標籤為未歸一化的字符級轉錄（未去除標點和大小寫）。該模型以 16Khz 音頻信號的梅爾濾波器組特徵作為輸入。

模型圖片

原始的 Flashlight 代碼、模型檢查點和 Colab 筆記本可在此處找到。

✨ 主要特性

大規模多語言語音識別能力。
基於 10 億參數的 Transformer 編碼器架構。
配備 CTC 頭部和語言識別頭部。

📚 詳細文檔

引用信息

論文
作者：Loren Lugosch、Tatiana Likhomanenko、Gabriel Synnaeve、Ronan Collobert

@article{lugosch2021pseudo,
  title={Pseudo-Labeling for Massively Multilingual Speech Recognition},
  author={Lugosch, Loren and Likhomanenko, Tatiana and Synnaeve, Gabriel and Collobert, Ronan},
  journal={ICASSP},
  year={2022}
}

貢獻者

非常感謝 Chan Woo Kim 將模型從 Flashlight C++ 移植到 PyTorch。

訓練方法

模型圖片

有關該模型的訓練方式的更多信息，請查看官方論文。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import MCTCTForCTC, MCTCTProcessor

model = MCTCTForCTC.from_pretrained("speechbrain/m-ctc-t-large")
processor = MCTCTProcessor.from_pretrained("speechbrain/m-ctc-t-large")

 # load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# feature extraction
input_features = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt").input_features 

# retrieve logits
with torch.no_grad():
    logits = model(input_features).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)