🚀 OWSM: Open Whisper-style Speech Model
OWSMは、ESPnetを含む公開データとオープンソースツールキットを使用して、完全にオープンな音声基礎モデルの開発を目指しています。
推論の例は、私たちのプロジェクトページで見ることができます。デモはこちらから利用できます。
OWSM v3.1はOWSM v3の改良版です。ほとんどすべての評価ベンチマークにおいて、OWSM v3を大きく上回っています。
新しい学習データは含まれていません。代わりに、最先端の音声エンコーダであるE-Branchformerを利用しています。
このリポジトリのモデルは合計10.2億のパラメータを持ち、18万時間の公開音声データで学習されています。
具体的には、以下の音声テキスト変換タスクをサポートしています。
- 音声認識
- 任意の言語間の音声翻訳
- 発話レベルのアラインメント
- 長文の文字起こし
- 言語識別
📚 詳細ドキュメント
モデル情報
属性 |
详情 |
モデルタイプ |
OWSM: Open Whisper-style Speech Model |
学習データ |
180k時間の公開音声データ |
引用情報
OWSM-CTC
@inproceedings{owsm-ctc,
title = "{OWSM}-{CTC}: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification",
author = "Peng, Yifan and
Sudo, Yui and
Shakeel, Muhammad and
Watanabe, Shinji",
booktitle = "Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)",
year = "2024",
month= {8},
url = "https://aclanthology.org/2024.acl-long.549",
}
OWSM v3.1 and v3.2
@inproceedings{owsm-v32,
title={On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models},
author={Jinchuan Tian and Yifan Peng and William Chen and Kwanghee Choi and Karen Livescu and Shinji Watanabe},
booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year={2024},
month={9},
pdf="https://arxiv.org/pdf/2406.09282"
}
@inproceedings{owsm-v31,
title={{OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer}},
author={Yifan Peng and Jinchuan Tian and William Chen and Siddhant Arora and Brian Yan and Yui Sudo and Muhammad Shakeel and Kwanghee Choi and Jiatong Shi and Xuankai Chang and Jee-weon Jung and Shinji Watanabe},
booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year={2024},
month={9},
pdf="https://arxiv.org/pdf/2401.16658",
}
初期のOWSM (v1, v2, v3)
@inproceedings{owsm,
title={Reproducing Whisper-Style Training Using An Open-Source Toolkit And Publicly Available Data},
author={Yifan Peng and Jinchuan Tian and Brian Yan and Dan Berrebbi and Xuankai Chang and Xinjian Li and Jiatong Shi and Siddhant Arora and William Chen and Roshan Sharma and Wangyou Zhang and Yui Sudo and Muhammad Shakeel and Jee-weon Jung and Soumi Maiti and Shinji Watanabe},
booktitle={Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
year={2023},
month={12},
pdf="https://arxiv.org/pdf/2309.13876",
}
📄 ライセンス
このプロジェクトはCC BY 4.0ライセンスの下で公開されています。