kan-bayashi_csj_asr_trainモデル - 無料でオープンソース、高精度な日本語自動音声認識を実現

ホーム

Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave

espnetによって開発

これはESPnetフレームワークに基づいて訓練された日本語自動音声認識(ASR)モデルで、CSJデータセットを使用して訓練され、Transformerアーキテクチャを採用しています。

音声認識日本語#日本語音声認識 #エンドツーエンドモデル #学術講演の文字起こし

ダウンロード数 13

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドの日本語音声認識モデルで、日本語の音声をテキストに変換することができます。ESPnetツールキットに基づいて開発され、CSJ(日本語自然会話コーパス)データセットを使用して訓練されています。

モデル特徴

エンドツーエンド音声認識

エンドツーエンドの訓練方式を採用し、音声入力から直接テキスト出力を生成します

Transformerアーキテクチャに基づく

Transformerモデルアーキテクチャを使用し、強力なシーケンスモデリング能力を持っています

日本語専用データセットで訓練

CSJ(日本語自然会話コーパス)専用データセットを使用して訓練され、日本語の音声に対して良好な認識結果を得られます

モデル能力

日本語音声認識

音声をテキストに変換

自動文字起こし

使用事例

音声文字起こし

会議録の自動文字起こし

日本語の会議録音を自動的に文字記録に変換します

日本語音声入力

アプリケーションに日本語の音声入力機能を提供します

支援ツール

聴覚障害者支援

聴覚障害者に対してリアルタイムの音声を文字に変換するサービスを提供します

🚀 ESPnet2自動音声認識モデルのサンプル

このモデルは、音声データを自動的にテキストに変換するためのもので、ESPnetフレームワークを利用して訓練されています。

🚀 クイックスタート

このモデル kan-bayashi/csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave は、kan-bayashiによって espnet のcsj/asr1レシピを使用して訓練されました。 ♻️ このモデルは https://zenodo.org/record/4037458/ からインポートされました。

💻 使用例

基本的な使用法

# coming soon

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

📚 ドキュメント

ESPnetを引用する場合

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}