かも - 直幸（kamo - naoyuki）オープンソース英語音声認識モデル - 無料でデプロイし、英語音声を正確に認識

ホーム

Kamo Naoyuki Mini An4 Asr Train Raw Bpe Valid.acc.best

espnetによって開発

これはESPnet2フレームワークでトレーニングされた自動音声認識(ASR)事前学習モデルで、mini-an4データセットを使用してトレーニングされ、英語音声認識をサポートします。

音声認識英語#エンドツーエンド音声認識 #BPEトークン化 #軽量モデル

ダウンロード数 425

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドの自動音声認識モデルで、入力された音声信号を対応するテキスト内容に変換できます。

モデル特徴

エンドツーエンド音声認識

エンドツーエンドアーキテクチャを採用し、音声信号から直接テキストに変換

ESPnetフレームワークベース

成熟したエンドツーエンド音声処理ツールキットであるESPnetを使用してトレーニング

BPEトークン化

バイトペアエンコーディング(BPE)を使用してテキスト処理を実施

モデル能力

英語音声認識

エンドツーエンド音声からテキストへの変換

使用事例

音声文字起こし

会議議事録の文字起こし

英語の会議録音を自動的に文字記録に変換

音声コマンド認識

英語の音声コマンドを認識し、実行可能なコマンドに変換

🚀 ESPnet2 ASR 事前学習済みモデル

このモデルは、自動音声認識（Automatic Speech Recognition, ASR）の分野で使用されるESPnet2に基づいた事前学習済みモデルです。特定のデータセットを使用して訓練され、音声認識タスクに役立ちます。

🚀 クイックスタート

`kamo - naoyuki/mini_an4_asr_train_raw_bpe_valid.acc.best`

♻️ https://zenodo.org/record/3957940#.YN7zwJozZH4 からインポートされました。このモデルは、kan - bayashiによって espnet のjsut/tts1レシピを使用して訓練されました。

💻 使用例

基本的な使用法

# coming soon

📚 ドキュメント

ESPnetの引用

@inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}

またはarXiv:

@misc{watanabe2018espnet,
      title={ESPnet: End-to-End Speech Processing Toolkit}, 
      author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Enrique Yalta Soplin and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
      year={2018},
      eprint={1804.00015},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

訓練設定

完全な設定は config.yaml を参照してください。

config: null
print_config: false
log_level: INFO
dry_run: false
iterator_type: sequence
output_dir: exp/asr_train_raw_bpe
ngpu: 1
seed: 0
num_workers: 1
num_att_plot: 3
dist_backend: nccl
dist_init_method: env://
dist_world_size: null
dist_rank: null
local_rank: 0
dist_master_addr: null
dist_master_port: null
dist_launcher: null
multiprocessing_distributed: false
cudnn_enabled: true
cudnn_benchmark: false
cudnn_deterministic: true