A

AV HuBERT

由nguyenvulebinh開發
基於MuAViC數據集的多語言視聽語音識別模型,結合音頻和視覺模態實現魯棒性能
下載量 683
發布時間 : 8/30/2024

模型概述

AV-HuBERT是一種自監督模型,專為視聽語音識別設計,通過結合音頻和視覺模態實現魯棒性能,尤其在嘈雜環境中表現優異。

模型特點

多模態融合
同時處理音頻和視頻輸入,利用唇部運動信息增強語音識別
多語言支持
支持阿拉伯語、德語、希臘語、英語、西班牙語、法語、意大利語、葡萄牙語、俄語等多種語言
噪聲魯棒性
在嘈雜環境中通過視覺信息補充音頻信號,提高識別準確性

模型能力

視聽語音識別
多語言語音轉文本
噪聲環境語音處理

使用案例

語音識別
會議記錄
在視頻會議中自動生成文字記錄
提高在背景噪聲環境下的識別準確率
無障礙應用
為聽障人士提供即時字幕服務
結合唇部運動信息提高理解度
教育
語言學習
幫助學習者通過觀察唇部運動改善發音
提供更準確的語言發音反饋
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase