W

Wav2vec2 Base 100k Voxpopuli

facebookによって開発
大衆の声コーパス10万件の未注釈データで事前学習された音声認識基本モデル
ダウンロード数 148
リリース時間 : 3/2/2022

モデル概要

FacebookのWav2Vec2基本モデルで、多言語音声認識タスクに適しており、トークナイザーと注釈データを組み合わせて微調整後に使用

モデル特徴

多言語サポート
大衆の声多言語コーパスで事前学習されており、複数言語処理をサポート
教師なし事前学習
10万時間の未注釈音声データを使用した自己教師あり学習
微調整可能なアーキテクチャ
トークナイザーを追加し、注釈データで微調整することで特定言語認識タスクに適応可能

モデル能力

音声特徴抽出
多言語音声認識 (微調整が必要)
音声表現学習

使用事例

音声技術
多言語音声認識システム
モデルを微調整して特定言語の音声テキスト変換システムを構築
精度は微調整データとトレーニング設定に依存
音声表現学習
話者認識や感情分析などの下流タスクに使用する音声特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase