asr-crdnn-germanオープンソースドイツ語音声認識モデル - 低誤り率で高精度な音声から文字への変換

ホーム

Asr Crdnn German

jfreiwaによって開発

Mozilla Common Voice 6.1、ドイツ語ウィキペディア音声コーパスおよびm-ailabsコーパスで訓練されたドイツ語ASRモデル、単語誤り率7.24%

音声認識

PyTorch

ドイツ語#ドイツ語音声文字起こし #言語モデルなし #多言語コーパス訓練

ダウンロード数 17

リリース時間 : 3/29/2022

モデル概要

これはドイツ語自動音声認識(ASR)モデルで、CRDNNアーキテクチャを採用し、ドイツ語音声をテキストに変換することをサポートします。

モデル特徴

複数データソース訓練

Mozilla Common Voice、ドイツ語ウィキペディア音声、m-ailabsの3つの高品質ドイツ語音声データセットを統合

低単語誤り率

テストセットで7.24%の単語誤り率(WER)を達成

オープンソース実装

完全な訓練コードと事前訓練済みモデルはGitHubでオープンソース化

モデル能力

ドイツ語音声テキスト変換

長音声文字起こし

リアルタイム音声認識

使用事例

音声文字起こし

会議議事録

ドイツ語会議録音を自動的に文字記録に変換

約92.76%の精度

字幕生成

ドイツ語動画コンテンツに自動的に字幕を生成

音声アシスタント

ドイツ語音声コマンド認識

ドイツ語音声制御システム用音声認識モジュール

🚀 ドイツ語自動音声認識モデル

このモデルは、自動音声認識タスクに特化しており、Mozilla Common Voice 6.1、Spoken Wikipedia Corpus、m-ailabsコーパスを用いて学習されました。

🚀 クイックスタート

このモデルは、Mozilla Common Voice 6.1、Spoken Wikipedia Corpus、m-ailabsコーパスを用いて学習されています。

https://nats.gitlab.io/swc/
https://commonvoice.mozilla.org/de/datasets
https://www.caito.de/2019/01/03/the-m-ailabs-speech-dataset/

言語モデルは提供していません。

学習コードはこちらで見つけることができます。

✨ 主な機能

このモデルの単語誤り率（WER）は7.24%です。（このモデルの更新版はこちらで見つけることができます: https://huggingface.co/jfreiwa/asr-crdnn-german-umlaute）

📦 インストール

SpeechBrainのインストール

まず、以下のコマンドでSpeechBrainをインストールしてください。

pip install speechbrain

SpeechBrainのチュートリアルを読み、より詳しく学ぶことをおすすめします。

💻 使用例

基本的な使用法

from speechbrain.pretrained import EncoderDecoderASR

asr_model = EncoderDecoderASR.from_hparams(source="jfreiwa/asr-crdnn-german", savedir="pretrained_models/asr-crdnn-german")
asr_model.transcribe_file("jfreiwa/asr-crdnn-german/example-de.wav")

高度な使用法

GPUで推論を行うには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加します。

📚 ドキュメント

制限事項

このモデルを他のデータセットで使用した場合のパフォーマンスについては、一切保証していません。

SpeechBrainについて

ウェブサイト: https://speechbrain.github.io/
コード: https://github.com/speechbrain/speechbrain/
HuggingFace: https://huggingface.co/speechbrain/

SpeechBrainの引用

SpeechBrainを研究やビジネスで使用する場合は、以下のように引用してください。

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

本モデルの引用

このモデルを研究で使用する場合は、以下のように引用してください。

@inproceedings{freiwald2022,
  author={J. Freiwald and P. Pracht and S. Gergen and D. Kolossa},
  title={Open-Source End-To-End Learning for Privacy-Preserving German {ASR}},
  year=2022,
  booktitle={DAGA 2022}
}

謝辞

この研究は、ドイツ連邦教育研究省（BMBF）の「Innovations for Tomorrow’s Production, Services, and Work」プログラム（02L19C200）の助成を受けて行われました。このプロジェクトは、カールスルーエのプロジェクト管理機関（PTKA）によって実施されています。本出版物の内容については、著者が責任を負います。