ascend_with_timitオープンソース音声認識モデル - 無料でデプロイして高精度な音声文字変換を実現

ホーム

Ascend With Timit

GleamEyeBeastによって開発

このモデルはTIMITデータセットでファインチューニングされた音声認識モデルで、評価セットで0.4781の単語誤り率と0.1727の文字誤り率を達成しました。

音声認識

Transformers

#音声認識 #低単語誤り率 #TIMITファインチューニング

ダウンロード数 16

リリース時間 : 4/4/2022

モデル概要

これは自動音声認識(ASR)モデルで、主に音声をテキストに変換するために使用されます。モデルはTIMITデータセットでファインチューニングされており、英語音声認識タスクに適しています。

モデル特徴

低単語誤り率

評価セットで0.4781の単語誤り率を達成し、良好なパフォーマンスを示しています

低文字誤り率

評価セットで0.1727の文字誤り率を達成し、高い精度を実現しています

効率的なトレーニング

混合精度トレーニング（ネイティブAMP）を使用してトレーニング効率を最適化しています

モデル能力

英語音声認識

音声からテキストへの変換

使用事例

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換します

約52.19%の精度（1-WERに基づく計算）

字幕生成

ビデオコンテンツに自動的に英語字幕を生成します

文字レベルの精度約82.73%

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
2.4026	1.0	890	1.3419	0.9083	0.3670
1.1926	2.0	1780	0.9730	0.6491	0.2585
0.9104	3.0	2670	0.8483	0.5368	0.1963
0.7718	4.0	3560	0.8122	0.4913	0.1791
0.7013	5.0	4450	0.8013	0.4781	0.1727

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ascend With Timit

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ascend_with_timit

🚀 クイックスタート

📚 ドキュメント

モデルの説明

想定される用途と制限

訓練と評価データ

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークのバージョン