W

Wav2vec2 Large Xlsr Japanese

vumichienによって開発
facebook/wav2vec2-large-xlsr-53を日本語用にファインチューニングしたモデルで、日本語音声認識タスクをサポートします。
ダウンロード数 214
リリース時間 : 3/2/2022

モデル概要

このモデルはXLSR-53アーキテクチャに基づく日本語音声認識モデルで、Common VoiceとJSUTデータセットでファインチューニングされており、日本語音声からテキストへの変換タスクに適しています。

モデル特徴

日本語音声認識
日本語に最適化された音声認識モデルで、日本語音声からテキストへの変換をサポートします。
XLSR-53ベースのファインチューニング
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングされており、強力な音声特徴抽出能力を継承しています。
複数データセットでの学習
Common VoiceとJSUT日本語音声コーパスを使用して学習されており、モデルの汎化能力が向上しています。

モデル能力

日本語音声認識
音声からテキストへの変換
16kHzサンプリングレート音声処理

使用事例

音声書き起こし
日本語音声転写
日本語音声コンテンツをテキスト形式に変換
WER: 30.84%, CER: 17.85%
音声アシスタント
日本語音声コマンド認識
日本語音声コマンドを認識・理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase