A

AV HuBERT

nguyenvulebinhによって開発
MuAViCデータセットに基づく多言語視聴音声認識モデル、音声と視覚モダリティを組み合わせた頑健な性能を実現
ダウンロード数 683
リリース時間 : 8/30/2024

モデル概要

AV-HuBERTは視聴音声認識のために設計された自己教師ありモデルで、音声と視覚モダリティを組み合わせることで頑健な性能を実現し、特に騒音環境で優れた性能を発揮します。

モデル特徴

マルチモーダル融合
音声と映像入力を同時に処理し、唇の動き情報を活用して音声認識を強化
多言語対応
アラビア語、ドイツ語、ギリシャ語、英語、スペイン語、フランス語、イタリア語、ポルトガル語、ロシア語など多言語をサポート
ノイズ耐性
騒音環境において視覚情報で音声信号を補完し、認識精度を向上

モデル能力

視聴音声認識
多言語音声テキスト変換
ノイズ環境音声処理

使用事例

音声認識
会議議事録
ビデオ会議で自動的に文字起こしを生成
背景騒音環境下での認識精度向上
アクセシビリティアプリ
聴覚障害者向けリアルタイム字幕サービス提供
唇の動き情報を組み合わせ理解度向上
教育
言語学習
学習者が唇の動きを観察して発音を改善するのを支援
より正確な言語発音フィードバックを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase