W

Wav2vec2 Base 960h Finetuned Common Voice3

obokkkkによって開発
facebook/wav2vec2-base-960hをファインチューニングした音声認識モデルで、汎用音声認識タスクに適しています
ダウンロード数 20
リリース時間 : 4/28/2022

モデル概要

このモデルはwav2vec2-base-960hをCommon Voiceデータセットでファインチューニングしたバージョンで、主に自動音声認識(ASR)タスクに使用されます。

モデル特徴

wav2vec2アーキテクチャ採用
先進的なwav2vec2アーキテクチャを採用し、高品質な音声認識能力を提供します
Common Voiceデータセットでファインチューニング
モデルはCommon Voiceデータセットでファインチューニングされており、認識精度が向上しています
大規模トレーニング対応
トレーニングプロセスでは1024の総バッチサイズを使用し、モデルがデータ特徴を十分に学習できるようにしています

モデル能力

音声認識
音声からテキストへの変換

使用事例

音声文字起こし
会議議事録
会議の録音を自動的に文字記録に変換します
字幕生成
動画コンテンツに自動的に字幕を生成します
音声アシスタント
音声コマンド認識
ユーザーの音声コマンドを認識して処理します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase