distill-whisper-th-mediumオープンソースタイ語音声認識モデル - タイ語音声を効率的かつ高精度に認識

ホーム

Distill Whisper Th Medium

biodatlabによって開発

Whisperアーキテクチャに基づく蒸留版自動音声認識モデルで、タイ語に最適化されており、性能と効率性を兼ね備えています

音声認識

Transformers

オープンソースライセンス:MIT #タイ語音声認識 #蒸留モデル #方言最適化

ダウンロード数 303

リリース時間 : 1/16/2024

モデル概要

これはタイ語音声認識のために特別に設計された蒸留版Whisperモデルで、大規模な教師モデルから蒸留されており、高い認識精度を維持しながら効率性を向上させています。

モデル特徴

効率的な蒸留アーキテクチャ

4層デコーダー構造を採用(元の教師モデルは24層)、性能を維持しながら効率性を大幅に向上

タイ語最適化

タイ語の音声特性に特化して最適化されたトレーニング

多様なトレーニングデータ

Common Voice、Gowajee、タイ高齢者音声コーパスなど、多様なソースからのデータを使用してトレーニング

方言サポート

タイ中部方言などの方言データを含み、方言の認識能力を向上

モデル能力

タイ語音声認識

方言認識

効率的な音声テキスト変換

使用事例

音声書き起こし

タイ語会議議事録

タイ語の会議内容をリアルタイムでテキストに書き起こす

音声メモ

タイ語の音声メモを検索可能なテキストに変換

アクセシビリティアプリケーション

聴覚支援

聴覚障害者向けにリアルタイム字幕を提供

🚀 タイ語用Distilled Medium Whisper自動音声認識（ASR）モデル

このモデルは、Whisperアーキテクチャに基づく蒸留型自動音声認識（ASR）モデルです。タイ語の音声認識に特化して設計されており、パフォーマンスと効率性を向上させるために、大規模な教師モデルから蒸留されています。

🚀 クイックスタート

このモデルはタイ語の音声認識を必要とするアプリケーションに使用できます。

✨ 主な機能

タイ語の音声認識に特化した蒸留型ASRモデル。
教師モデルの24層に対し、4層のデコーダーを持ち、効率的です。

📚 ドキュメント

モデルの説明

このモデルは、Whisperアーキテクチャに基づく蒸留型自動音声認識（ASR）モデルで、タイ語の音声認識に特化しています。モデルは4層のデコーダー（教師モデルは24層）を持ち、大規模な教師モデルから蒸留されており、パフォーマンスと効率性の向上に焦点を当てています。

蒸留の詳細

教師モデル：Medium Whisper ASRモデル
蒸留に使用されたデータセット：
- Common Voice v13
- Gowajee
- Thai Elderly Speech Corpus
- カスタムスクレイピングデータ
- SLSCU Thai Dialect Corpus のタイ中央方言

モデルのパフォーマンス

Common Voice 13テストセットにおけるDeepCutトークン化WER：
- 蒸留モデル：7.58%
- 教師モデル：7.42%

蒸留用の追加データセットや、より多くのデコーダー層を使用することで、WERを改善する可能性があります。今後のアップデートで詳細を公開予定です！

想定される使用方法

このモデルは、タイ語の音声認識を必要とするアプリケーションに使用することを想定しています。

制限事項

このモデルはタイ語に特化して学習されており、他の言語では性能が低下する可能性があります。
タイ語の方言やアクセントによって、性能が異なる場合があります。
他のASRシステムと同様に、背景雑音や音声の明瞭さが認識精度に影響を与えることがあります。

謝辞

このモデルは、音声および言語技術コミュニティによって提供されたリソースとデータセットを使用して開発されました。Common Voice、Gowajee、SLSCU、およびThai Elderly Speech Corpusのチームに、貴重なデータセットを提供してくれたことに感謝します。

フレームワークのバージョン

Transformers 4.35.2
Pytorch 2.1.2
Datasets 2.16.1
Tokenizers 0.15.0

引用

Bibtexを使用して引用してください：

@inproceedings{aung-etal-2024-thonburian,
    title = "Thonburian Whisper: Robust Fine-tuned and Distilled Whisper for {T}hai",
    author = "Aung, Zaw Htet  and
      Thavornmongkol, Thanachot  and
      Boribalburephan, Atirut  and
      Tangsriworakan, Vittavas  and
      Pipatsrisawat, Knot  and
      Achakulvisut, Titipat",
    editor = "Abbas, Mourad  and
      Freihat, Abed Alhakim",
    booktitle = "Proceedings of the 7th International Conference on Natural Language and Speech Processing (ICNLSP 2024)",
    month = oct,
    year = "2024",
    address = "Trento",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.icnlsp-1.17",
    pages = "149--156",
}