whisper-small-telオープンソース音声認識モデル - テルグ語の音声内容を正確に認識

ホーム

Whisper Small Tel

sagarchaparaによって開発

OpenAI Whisper-large-v2をテルグ語音声データセットでファインチューニングした音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #テルグ語音声認識 #多方言サポート #低リソース最適化

ダウンロード数 17

リリース時間 : 2/27/2025

モデル概要

このモデルはテルグ語に最適化された自動音声認識(ASR)モデルで、Whisper-large-v2アーキテクチャを基にファインチューニングされており、テルグ語の音声から文字への変換タスクに特化しています。

モデル特徴

テルグ語最適化

テルグ語に特化してファインチューニングされており、この言語の認識精度を向上させています

大規模事前学習基盤

Whisper-large-v2の強力な音声認識能力を基にファインチューニングされています

エンドツーエンド音声認識

中間処理ステップなしで音声入力を直接テキスト出力に変換できます

モデル能力

テルグ語音声認識

音声からテキストへの変換

長時間音声の文字起こし

使用事例

音声文字起こし

テルグ語会議議事録

テルグ語の会議録音を自動的に文字記録に変換

単語誤り率約92.4%（さらなる最適化が必要）

メディア字幕生成

テルグ語動画コンテンツの自動字幕生成

音声アシスタント

テルグ語音声コマンド認識

テルグ語音声アシスタントアプリケーションのコマンド認識に使用

🚀 Whisper Telugu - 微調整済み

このモデルは、Telugu Audio Datasetデータセットでopenai/whisper-large-v2を微調整したバージョンです。評価セットでは以下の結果を達成しています。

損失: 3.5889
Wer: 92.3967

🚀 クイックスタート

このモデルは、オープンソースの音声認識モデルであるWhisperをTelugu言語に特化して微調整したものです。Telugu言語の音声を高精度に文字起こしすることができます。

📚 ドキュメント

モデルの詳細

このモデルは、元のWhisper-large-v2モデルをTelugu言語の音声データセットで微調整しています。これにより、Telugu言語の音声認識性能が向上しています。

想定される用途と制限

このモデルは主に、Telugu言語の音声を文字起こしするために使用されます。ただし、特定のドメインやアクセントに対しては性能が低下する可能性があります。

学習と評価データ

このモデルは、sagarchapara/telugu-audioデータセットを使用して学習されています。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0002
学習バッチサイズ: 4
評価バッチサイズ: 16
シード: 42
勾配累積ステップ: 4
総学習バッチサイズ: 16
オプティマイザ: OptimizerNames.ADAMW_TORCHを使用し、ベータ=(0.9,0.999)、イプシロン=1e-08、追加のオプティマイザ引数はありません
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ: 500
学習ステップ: 10000
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	Wer
0.384	0.1797	250	0.9966	96.1662
0.434	0.3595	500	1.4886	98.5007
0.4014	0.5392	750	1.4760	97.7940
0.3318	0.7189	1000	1.5314	97.7511
0.3014	0.8986	1250	1.5504	97.8368
0.2213	1.0784	1500	1.6095	97.3656
0.2212	1.2581	1750	1.6825	96.1662
0.2323	1.4378	2000	1.5175	97.6012
0.2049	1.6175	2250	2.0035	97.7940
0.1834	1.7973	2500	1.6968	96.4232
0.2012	1.9770	2750	1.7613	97.3013
0.1426	2.1567	3000	1.5106	95.9734
0.1344	2.3364	3250	1.7199	95.5665
0.1512	2.5162	3500	1.9328	94.8169
0.1346	2.6959	3750	1.7806	96.0805
0.1211	2.8756	4000	2.0429	95.6736
0.0824	3.0554	4250	2.0699	95.3309
0.0936	3.2351	4500	2.0379	96.1876
0.0946	3.4148	4750	2.1346	95.9092
0.0904	3.5945	5000	2.1195	95.0311
0.0937	3.7743	5250	1.7738	95.1810
0.0836	3.9540	5500	2.0081	95.1167
0.0525	4.1337	5750	2.3687	94.9240
0.0562	4.3134	6000	2.2252	95.1381
0.0506	4.4932	6250	2.5513	95.5022
0.0592	4.6729	6500	2.5357	95.6736
0.0521	4.8526	6750	2.4758	95.8235
0.0276	5.0324	7000	2.8255	94.9454
0.0278	5.2121	7250	2.6255	94.7740
0.0311	5.3918	7500	3.0046	94.4956
0.0269	5.5715	7750	2.8301	94.7312
0.0242	5.7513	8000	2.8859	94.2386
0.0255	5.9310	8250	2.5873	93.4676
0.0157	6.1107	8500	3.4027	93.6175
0.0092	6.2904	8750	3.5842	93.6389
0.0118	6.4702	9000	3.2694	93.9602
0.0086	6.6499	9250	3.3464	93.5318
0.01	6.8296	9500	3.4414	93.4461
0.0065	7.0093	9750	3.3491	92.6108
0.002	7.1891	10000	3.5889	92.3967