A

AV HuBERT MuAViC Multilingual

由 nguyenvulebinh 开发
基于MuAViC数据集训练的视听语音识别模型,结合音频和视觉模态提升嘈杂环境下的识别性能
下载量 165
发布时间 : 3/6/2025

模型简介

AV-HuBERT是一个用于视听语音识别的自监督模型,利用音频和视觉两种模态实现强大的语音识别能力,特别在嘈杂环境中表现优异。

模型特点

多模态融合
同时利用音频和视觉(嘴唇运动)信息进行语音识别
多语言支持
支持包括英语、法语、俄语等9种语言的识别
噪声鲁棒性
在嘈杂环境中仍能保持较高的识别准确率
预训练模型
提供在MuAViC数据集上微调的预训练模型

模型能力

视听语音识别
多语言语音转录
噪声环境语音处理

使用案例

语音识别
会议记录
在嘈杂会议环境中准确记录发言内容
结合视觉信息提高识别准确率
视频字幕生成
为视频内容自动生成字幕
利用嘴唇运动信息提高转录质量
辅助技术
听力辅助
帮助听力障碍者理解语音内容
通过视觉信息补充音频信息
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase