A

Asr Wav2vec2 Commonvoice 14 Zh CN

由speechbrain開發
這是一個基於CommonVoice中文數據集訓練的端到端自動語音識別系統,使用wav2vec2.0和CTC架構,支持中文語音識別。
下載量 36
發布時間 : 8/9/2023

模型概述

該模型是一個自動語音識別系統,專門針對中文語音設計,能夠將中文語音轉換為文本。它結合了預訓練的wav2vec2.0模型和CTC解碼器,在CommonVoice中文數據集上進行了微調。

模型特點

端到端語音識別
提供完整的語音到文本轉換流程,無需額外的語言模型
基於wav2vec2.0預訓練
使用facebook/wav2vec2-large-xlsr-53作為基礎模型,具有強大的聲學特徵提取能力
中文優化
專門針對中文語音特點進行優化,在CommonVoice中文數據集上微調
輕量級推理
支持CPU和GPU推理,適合多種部署場景

模型能力

中文語音識別
音頻轉錄
語音轉文本

使用案例

語音轉錄
會議記錄自動轉錄
將中文會議錄音自動轉換為文字記錄
語音筆記轉換
將用戶的中文語音筆記轉換為可編輯的文本
輔助技術
語音輸入系統
為應用程序添加中文語音輸入功能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase