M

Mctct Large

由cwkeam開發
Meta AI推出的大規模多語言語音識別模型,具有10億參數,支持60種語言的字符級轉錄
下載量 21
發布時間 : 5/5/2022

模型概述

M-CTC-T是一個基於Transformer編碼器的大規模多語言語音識別模型,配備CTC頭部和語言識別頭部,能夠處理60種語言的語音輸入並輸出字符級轉錄文本(保留標點符號和大小寫)。

模型特點

多語言支持
支持60種語言的語音識別,具有語言識別能力
大規模訓練
基於10億參數量的Transformer架構,訓練數據來自Common Voice和VoxPopuli
字符級轉錄
輸出保留原始文本的標點符號和大小寫格式
端到端模型
直接從16kHz音頻信號提取的梅爾濾波器組特徵進行識別

模型能力

多語言語音識別
語言識別
字符級文本轉錄

使用案例

語音轉文字
會議記錄自動轉錄
將多語言會議錄音自動轉換為文字記錄
語音助手
支持多語言的語音指令識別
語音分析
多語言內容分析
分析不同語言的語音內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase