A

AV HuBERT MuAViC Ru

由nguyenvulebinh開發
AV-HuBERT是一種視聽語音識別模型,基於MuAViC多語言視聽語料庫訓練,結合音頻和視覺模態實現魯棒性能。
下載量 91
發布時間 : 3/6/2025

模型概述

AV-HuBERT是一種自監督模型,專為視聽語音識別設計,通過結合音頻和視覺模態實現魯棒性能,尤其在嘈雜環境中表現優異。

模型特點

多語言支持
支持包括阿拉伯語、德語、希臘語、英語、西班牙語、法語、意大利語、葡萄牙語、俄語在內的多種語言。
視聽結合
結合音頻和視覺模態,提高在嘈雜環境中的語音識別性能。
預訓練模型
提供在MuAViC數據集上微調的預訓練模型,便於快速部署。

模型能力

視聽語音識別
多語言語音識別
嘈雜環境下的語音識別

使用案例

語音識別
多語言語音轉錄
將多種語言的語音轉換為文本
嘈雜環境下的語音識別
在背景噪聲較大的環境中進行語音識別
通過結合視覺信息提高識別準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase