A

AV HuBERT MuAViC Ru

nguyenvulebinhによって開発
AV-HuBERTは視聴音声認識モデルで、MuAViC多言語視聴コーパスで訓練され、音声と視覚モダリティを組み合わせて頑健な性能を実現します。
ダウンロード数 91
リリース時間 : 3/6/2025

モデル概要

AV-HuBERTは自己教師ありモデルで、視聴音声認識のために設計されており、音声と視覚モダリティを組み合わせることで頑健な性能を実現し、特に騒がしい環境で優れた性能を発揮します。

モデル特徴

多言語サポート
アラビア語、ドイツ語、ギリシャ語、英語、スペイン語、フランス語、イタリア語、ポルトガル語、ロシア語を含む複数の言語をサポートします。
視聴結合
音声と視覚モダリティを組み合わせ、騒がしい環境での音声認識性能を向上させます。
事前学習モデル
MuAViCデータセットで微調整された事前学習モデルを提供し、迅速な展開を容易にします。

モデル能力

視聴音声認識
多言語音声認識
騒がしい環境での音声認識

使用事例

音声認識
多言語音声転写
複数の言語の音声をテキストに変換します
騒がしい環境での音声認識
背景ノイズが大きい環境で音声認識を行います
視覚情報を組み合わせることで認識精度を向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase