W

Wav2vec2 Base Toy Train Data Masked Audio

scasuttによって開発
facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、おもちゃデータセットでトレーニングされ、オーディオマスキングタスクをサポート
ダウンロード数 22
リリース時間 : 3/26/2022

モデル概要

このモデルはwav2vec2-baseアーキテクチャに基づくバリアントで、オーディオマスキングタスクに特化して最適化されており、音声認識やオーディオ特徴抽出のシナリオに適しています

モデル特徴

オーディオマスキング能力
オーディオマスキングタスクに特化して最適化されており、マスクされたオーディオ入力を効果的に処理できます
軽量ファインチューニング
事前トレーニング済みのwav2vec2-baseモデルを基にファインチューニングされており、小規模データセットに適しています
漸進的な性能向上
トレーニング過程で単語誤り率が1.0から0.7340に段階的に低下し、良好な学習曲線を示しています

モデル能力

音声認識
オーディオ特徴抽出
マスクオーディオ予測

使用事例

音声処理
ノイズ環境下での音声認識
オーディオの一部がマスクされたりノイズ干渉を受けた状況下での音声認識
単語誤り率0.7340
オーディオデータ拡張
オーディオマスキングタスクのトレーニングデータ生成に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase