A

AV HuBERT MuAViC Multilingual

nguyenvulebinhによって開発
MuAViCデータセットを用いて学習された視聴覚音声認識モデルで、音声と視覚のモーダルを組み合わせることで、雑音環境下での認識性能を向上させます。
ダウンロード数 165
リリース時間 : 3/6/2025

モデル概要

AV-HuBERTは、視聴覚音声認識に用いられる自己教師付きモデルで、音声と視覚の2つのモーダルを利用して強力な音声認識能力を実現し、特に雑音環境下で優れた性能を発揮します。

モデル特徴

マルチモーダル融合
音声と視覚(唇の動き)の情報を同時に利用して音声認識を行います。
多言語対応
英語、フランス語、ロシア語など9種類の言語の認識をサポートします。
雑音耐性
雑音環境下でも高い認識精度を維持します。
事前学習モデル
MuAViCデータセットで微調整された事前学習モデルを提供します。

モデル能力

視聴覚音声認識
多言語音声文字起こし
雑音環境下の音声処理

使用事例

音声認識
会議記録
雑音の多い会議環境で発言内容を正確に記録します。
視覚情報を組み合わせることで認識精度を向上させます。
動画字幕生成
動画内容に自動的に字幕を生成します。
唇の動きの情報を利用して文字起こしの品質を向上させます。
支援技術
聴覚支援
聴覚障害者が音声内容を理解するのを支援します。
視覚情報で音声情報を補完します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase