W

Wav2vec2 Large Japanese

NTQAIによって開発
facebook/wav2vec2-large-xlsr-53モデルを微調整した日本語音声認識モデルで、16kHzサンプリングレートの入力をサポートします。
ダウンロード数 316
リリース時間 : 3/2/2022

モデル概要

公開データセットを使って訓練された日本語自動音声認識モデルで、言語モデルなしで直接使用できます。

モデル特徴

複数データセットによる訓練
一般音声、JSUT、TEDxJPなどの複数の公開日本語データセットを使って微調整します。
言語モデル不要
直接使用でき、追加の言語モデルのサポートは必要ありません。
16kHzサンプリングレートのサポート
16kHzサンプリングレートの音声入力に最適化されています。

モデル能力

日本語音声認識
音声をテキストに変換

使用事例

音声文字起こし
日常会話の文字起こし
日本語の日常会話をテキストに変換します。
サンプルでは基本的な会話内容を認識できますが、一部の誤りがあります。
講演内容の記録
TED講演などの正式な場面の日本語内容を文字起こしします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase