exp_w2v2t_en_unispeech - sat_s459オープンソース英語音声認識モデル。16kHzの音声入力をサポートします。

Exp W2v2t En Unispeech Sat S459

jonatasgrosmanによって開発

マイクロソフトのUniSpeech-SAT-Largeモデルをファインチューニングした英語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

ダウンロード数 22

リリース時間 : 7/8/2022

モデル概要

このモデルはmicrosoft/unispeech-sat-largeアーキテクチャを基に、Common Voice 7.0英語データセットでファインチューニングされた自動音声認識(ASR)モデルで、英語音声からテキストへの変換タスクに特化しています。

高品質音声認識

マイクロソフトUniSpeech-SAT-Largeモデルをファインチューニングし、高品質な英語音声認識能力を提供

16kHzサンプリングレートサポート

16kHzサンプリングレートの音声入力に特化して最適化

オープンソースライセンス

Apache-2.0ライセンスを採用し、商業利用や研究利用が可能

英語音声認識

音声からテキストへの変換

音声文字起こし

会議議事録の文字起こし

英語の会議録音を自動的に文字記録に変換

ポッドキャスト字幕生成

英語ポッドキャストコンテンツの自動字幕生成

音声アシスタント

音声コマンド認識

英語音声アシスタントシステムのコマンド認識に使用

Property	Details
Model Type	Fine - tuned [microsoft/unispeech - sat - large](https://huggingface.co/microsoft/unispeech - sat - large) for English speech recognition
Training Data	[Common Voice 7.0](https://huggingface.co/datasets/mozilla - foundation/common_voice_7_0)
Tags	automatic - speech - recognition, en