wav2vec2-base-timit-demo-colabオープンソース音声認識モデル - TIMITデータセットの音声を高精度で認識

Wav2vec2 Base Timit Demo Colab

roshantusharによって開発

facebook/wav2vec2-baseモデルをベースにTIMITデータセット向けにファインチューニングした音声認識モデル

ダウンロード数 24

リリース時間 : 5/2/2022

モデル概要

このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、音声からテキストへの変換タスクに適しています。

wav2vec2アーキテクチャ採用

facebookのwav2vec2-baseアーキテクチャを採用し、優れた音声特徴抽出能力を有する

TIMITデータセットでファインチューニング

TIMIT音声データセットでファインチューニングされており、英語音声認識タスクに適している

Colabデモ対応

Colabデモ環境を提供しており、迅速なテストと評価が可能

英語音声認識

音声からテキストへの変換

音声処理

英語音声の文字起こし

英語音声コンテンツをテキストに変換

音声コマンド認識

簡単な英語音声コマンドを認識