Meta AI開源mctct-large語音識別模型 - 支持60種語言字符級轉錄

首頁

Mctct Large

由cwkeam開發

Meta AI推出的大規模多語言語音識別模型，具有10億參數，支持60種語言的字符級轉錄

語音識別

Transformers

英語開源協議:Apache-2.0 #多語言語音識別 #字符級轉錄 #大規模Transformer

下載量 21

發布時間 : 5/5/2022

模型概述

M-CTC-T是一個基於Transformer編碼器的大規模多語言語音識別模型，配備CTC頭部和語言識別頭部，能夠處理60種語言的語音輸入並輸出字符級轉錄文本（保留標點符號和大小寫）。

模型特點

多語言支持

支持60種語言的語音識別，具有語言識別能力

大規模訓練

基於10億參數量的Transformer架構，訓練數據來自Common Voice和VoxPopuli

字符級轉錄

輸出保留原始文本的標點符號和大小寫格式

端到端模型

直接從16kHz音頻信號提取的梅爾濾波器組特徵進行識別

模型能力

多語言語音識別

語言識別

字符級文本轉錄

使用案例

語音轉文字

會議記錄自動轉錄

將多語言會議錄音自動轉換為文字記錄

語音助手

支持多語言的語音指令識別

語音分析

多語言內容分析

分析不同語言的語音內容

🚀 M-CTC-T

M-CTC-T 是 Meta AI 推出的大規模多語言語音識別器。該模型是一個具有 10 億參數的 Transformer 編碼器，配備了一個針對 8065 個字符標籤的 CTC 頭部，以及一個針對 60 種語言 ID 標籤的語言識別頭部。它能有效解決多語言語音識別難題，為全球不同語言的語音處理提供了強大工具。

🚀 快速開始

M-CTC-T 是 Meta AI 研發的大規模多語言語音識別器。此模型為 10 億參數的 Transformer 編碼器，帶有針對 8065 個字符標籤的 CTC 頭部和針對 60 種語言 ID 標籤的語言識別頭部。它在 Common Voice（版本 6.1，2020 年 12 月發佈）和 VoxPopuli 上進行訓練，之後僅在 Common Voice 上繼續訓練。標籤為未歸一化的字符級轉錄（未去除標點和大小寫）。模型的輸入為 16Khz 音頻信號的梅爾濾波器組特徵。

模型圖片

原始的 Flashlight 代碼、模型檢查點和 Colab 筆記本可在此處找到。

✨ 主要特性

多語言支持：能夠識別多種語言，適用於不同語言環境的語音識別任務。
大規模參數：擁有 10 億參數的 Transformer 編碼器，提供強大的識別能力。
雙頭部設計：CTC 頭部和語言識別頭部結合，提高識別準確性和語言判斷能力。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import MCTCTForCTC, MCTCTProcessor

model = MCTCTForCTC.from_pretrained("speechbrain/mctct-large")
processor = MCTCTProcessor.from_pretrained("speechbrain/mctct-large")

 # load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# tokenize
input_features = processor(ds[0]["audio"]["array"], return_tensors="pt").input_features 

# retrieve logits
logits = model(input_features).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

結果展示

Common Voice 的結果，按所有語言平均：

字符錯誤率 (CER):

驗證集	測試集
21.4	23.3

📚 詳細文檔

引用信息

論文

作者: Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert

@article{lugosch2021pseudo,
  title={Pseudo-Labeling for Massively Multilingual Speech Recognition},
  author={Lugosch, Loren and Likhomanenko, Tatiana and Synnaeve, Gabriel and Collobert, Ronan},
  journal={ICASSP},
  year={2022}
}

特別感謝 Chan Woo Kim 和 Patrick von Platen 將模型從 Flashlight 移植到 PyTorch。