W

Wav2vec2 Large Xls R 300m Pun Colab

shibliによって開発
facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデル
ダウンロード数 20
リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2-xls-r-300mのファインチューン版で、音声認識タスクに特化しており、common_voiceデータセットの音声コンテンツ処理に特に適しています。

モデル特徴

大規模事前学習モデルのファインチューニング
3億パラメータのwav2vec2-xls-r-300mモデルを基にファインチューニングされており、強力な音声特徴抽出能力を備えています
Common Voiceデータセット最適化
Common Voiceデータセットに特化して最適化されており、このデータセットでより良い性能を発揮する可能性があります
効率的なトレーニング設定
混合精度トレーニングや勾配蓄積などの技術を採用し、トレーニング効率を向上させています

モデル能力

音声認識
音声からテキストへの変換
音声コンテンツの理解

使用事例

音声文字起こし
音声コンテンツの文字起こし
音声コンテンツをテキスト形式に変換
音声アシスタント
音声コマンド認識
音声コマンドを認識・理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase