A

AV HuBERT MuAViC Multilingual

由nguyenvulebinh開發
基於MuAViC數據集訓練的視聽語音識別模型,結合音頻和視覺模態提升嘈雜環境下的識別性能
下載量 165
發布時間 : 3/6/2025

模型概述

AV-HuBERT是一個用於視聽語音識別的自監督模型,利用音頻和視覺兩種模態實現強大的語音識別能力,特別在嘈雜環境中表現優異。

模型特點

多模態融合
同時利用音頻和視覺(嘴唇運動)信息進行語音識別
多語言支持
支持包括英語、法語、俄語等9種語言的識別
噪聲魯棒性
在嘈雜環境中仍能保持較高的識別準確率
預訓練模型
提供在MuAViC數據集上微調的預訓練模型

模型能力

視聽語音識別
多語言語音轉錄
噪聲環境語音處理

使用案例

語音識別
會議記錄
在嘈雜會議環境中準確記錄發言內容
結合視覺信息提高識別準確率
視頻字幕生成
為視頻內容自動生成字幕
利用嘴唇運動信息提高轉錄質量
輔助技術
聽力輔助
幫助聽力障礙者理解語音內容
通過視覺信息補充音頻信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase