A

AV HuBERT MuAViC Ru

Developed by nguyenvulebinh
AV-HuBERT是一種視聽語音識別模型,基於MuAViC多語言視聽語料庫訓練,結合音頻和視覺模態實現魯棒性能。
Downloads 91
Release Time : 3/6/2025

Model Overview

AV-HuBERT是一種自監督模型,專為視聽語音識別設計,通過結合音頻和視覺模態實現魯棒性能,尤其在嘈雜環境中表現優異。

Model Features

多語言支持
支持包括阿拉伯語、德語、希臘語、英語、西班牙語、法語、意大利語、葡萄牙語、俄語在內的多種語言。
視聽結合
結合音頻和視覺模態,提高在嘈雜環境中的語音識別性能。
預訓練模型
提供在MuAViC數據集上微調的預訓練模型,便於快速部署。

Model Capabilities

視聽語音識別
多語言語音識別
嘈雜環境下的語音識別

Use Cases

語音識別
多語言語音轉錄
將多種語言的語音轉換為文本
嘈雜環境下的語音識別
在背景噪聲較大的環境中進行語音識別
通過結合視覺信息提高識別準確率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase