W

Wav2vec2 Base Timit Demo Colab7

hassnainによって開発
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
ダウンロード数 16
リリース時間 : 5/1/2022

モデル概要

このモデルはwav2vec2-baseのファインチューニング版で、英語音声認識タスク向けに最適化されており、英語音声をテキストに変換できます。

モデル特徴

高効率音声認識
wav2vec2アーキテクチャに基づき、効率的な英語音声認識能力を提供
ファインチューニング最適化
TIMITデータセットでファインチューニングを行い、特定シナリオでの認識精度を向上
軽量
wav2vec2-baseアーキテクチャに基づき、比較的軽量でデプロイが容易

モデル能力

英語音声認識
音声からテキストへの変換

使用事例

音声文字起こし
英語会議議事録
英語会議の録音を自動的に文字記録に変換
単語誤り率(WER)0.6478
音声コマンド認識
英語音声コマンドを認識し実行可能なコマンドに変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase