S

Speecht5 Asr

microsoftによって開発
LibriSpeechデータセットでファインチューニングされたSpeechT5自動音声認識モデルで、音声をテキストに変換する機能をサポートしています。
ダウンロード数 12.30k
リリース時間 : 2/2/2023

モデル概要

SpeechT5は、音声処理タスク向けに設計された統一モーダルエンコーダ-デコーダ事前学習フレームワークで、音声認識など様々なタスクをサポートします。

モデル特徴

統一モーダルフレームワーク
共有のエンコーダ-デコーダネットワークで音声とテキストを処理し、クロスモーダル表現学習を実現します。
クロスモーダルベクトル量子化
ランダムに混合した音声/テキスト状態と潜在ユニットを使用して、テキストと音声情報を統一された意味空間で整列させます。
マルチタスクサポート
音声認識だけでなく、音声合成、音声翻訳、音声変換など様々な音声処理タスクにも利用可能です。

モデル能力

音声認識
音声テキスト変換

使用事例

音声処理
自動音声認識
音声内容をテキストに変換し、会議議事録や音声アシスタントなどのシナリオに適用可能です。
LibriSpeechデータセットで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase