digit-mask-unispeech-sat-base-ftオープンソース音声処理モデル - デジタルマスクタスクに特化し、優れた性能を発揮

Digit Mask Unispeech Sat Base Ft

mazkoolegによって開発

microsoft/unispeech-sat-baseを微調整した音声処理モデルで、数字マスキングタスクに特化しており、評価セットで優れた性能を発揮します。

ダウンロード数 25

リリース時間 : 5/6/2023

モデル概要

このモデルはUniSpeech-SATアーキテクチャに基づく音声処理モデルで、数字マスキングタスク処理用に微調整されています。評価セットでほぼ完璧な精度とF1スコアを達成しました。

高精度

評価セットで99.91%の精度とF1スコアを達成

UniSpeech-SATアーキテクチャベース

マイクロソフトのUniSpeech-SAT-baseをベースモデルとして採用し、強力な音声特徴抽出能力を備えています

最適化されたトレーニングパラメータ

慎重に調整された学習率とバッチサイズを使用して微調整を行いました

数字音声認識

音声マスキング処理

高精度分類

音声処理

数字音声認識

音声中の数字を認識し分類します

99.91%精度

音声データ拡張

音声データ拡張プロセスにおける数字マスキング処理に使用されます