2

20220412 203254

lilitketによって開発
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルで、自動音声認識タスクをサポートします。
ダウンロード数 18
リリース時間 : 4/12/2022

モデル概要

これはwav2vec2-xls-r-300mアーキテクチャに基づく音声認識モデルで、common_voiceデータセットでファインチューニングされており、音声をテキストに変換できます。

モデル特徴

効率的なファインチューニング
事前学習済みのwav2vec2-xls-r-300mモデルを基にファインチューニングし、大規模事前学習の利点を最大限に活用
低単語誤り率
評価データセットで1.0019の単語誤り率(WER)を達成し、優れた性能を発揮
混合精度トレーニング
ネイティブAMP混合精度トレーニング技術を採用し、トレーニング効率を向上

モデル能力

音声からテキストへの変換
自動音声認識

使用事例

音声書き起こし
会議議録の自動書き起こし
会議の録音を自動的に文字記録に変換
単語誤り率が1.0019と低い
音声アシスタント
音声アシスタントシステムの音声認識モジュールとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase