W

W2v Bert 2.0

facebookによって開発
Conformerアーキテクチャに基づく音声エンコーダーで、450万時間のラベルなし音声データで事前学習され、143以上の言語をサポート
ダウンロード数 477.05k
リリース時間 : 12/19/2023

モデル概要

W2v-BERT 2.0は強力な音声エンコーダーで、Conformerアーキテクチャを採用し、大規模な多言語音声データで事前学習されており、音声処理タスクの基礎モデルとして使用可能です。

モデル特徴

大規模多言語事前学習
450万時間のラベルなし音声データで事前学習され、143以上の言語をカバー
先進的なアーキテクチャ
CNNとTransformerの利点を組み合わせたConformerアーキテクチャを採用
柔軟な応用
微調整可能な基礎モデルとして、様々な音声処理タスクに適用可能

モデル能力

音声特徴抽出
多言語音声処理
音声埋め込み生成

使用事例

音声認識
自動音声認識(ASR)
モデルの微調整により高精度な音声からテキストへの変換を実現
複数言語の音声認識をサポート
音声分析
音声分類
抽出した音声特徴を利用して分類タスクを実行
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase