W

W2v Hf Jsut Xlsr53

qqpannによって開発
facebook/wav2vec2-large-xlsr-53モデルをベースに、Common VoiceとJSUTデータセットを使用して日本語にファインチューニングした自動音声認識モデルです。
ダウンロード数 16
リリース時間 : 3/2/2022

モデル概要

これは日本語に最適化された自動音声認識モデルで、日本語音声をテキストに変換できます。

モデル特徴

日本語最適化
日本語音声に特化してファインチューニングされており、日本語音声認識の精度が向上しています。
複数データセット訓練
Common VoiceとJSUTの2つの日本語データセットで訓練されており、モデルの汎化能力が強化されています。
16kHzサンプリングレート対応
16kHzサンプリングレートの音声入力をサポートしており、ほとんどの音声認識シナリオに適しています。

モデル能力

日本語音声認識
音声からテキストへの変換

使用事例

音声書き起こし
日本語音声書き起こし
日本語音声コンテンツをテキストに変換
テストWER 51.72%、テストCER 24.89%
音声アシスタント
日本語音声コマンド認識
日本語音声コマンドを認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase