owsm_v3.1_ebfオープンソース音声モデル - 無料で多言語音声認識と翻訳をサポート

Owsm V3.1 Ebf

espnetによって開発

OWSMはオープンソースのWhisperスタイル音声モデルで、公開データとESPnetツールキットを使用して開発され、多言語音声認識や翻訳などのタスクをサポートします。

音声認識その他#多言語音声テキスト変換 #オープンソース音声基礎モデル #E-Branchformerエンコーダ

ダウンロード数 291

リリース時間 : 12/22/2023

モデル概要

OWSMは公開可能なデータとオープンソースツールキットを活用して完全にオープンな音声基礎モデルを開発することを目的としており、音声認識、任意の言語間の音声翻訳、文レベルのアライメント、長文の書き起こし、言語識別など様々なタスクをサポートします。

モデル特徴

オープンソース音声基礎モデル

完全に公開データとオープンソースツールキットに基づいて開発されており、透明性と再現性を確保しています。

改良された音声エンコーダ

先進的なE-Branchformerエンコーダを採用し、前バージョンと比較して性能が大幅に向上しています。

マルチタスクサポート

単一モデルで音声認識、翻訳、アライメント、長文書き起こし、言語識別など様々なタスクをサポートします。

大規模トレーニングデータ

18万時間の公開音声データに基づいてトレーニングされ、様々な言語とシナリオをカバーしています。

モデル能力

音声認識

クロスランゲージ音声翻訳

文レベルアライメント

長文書き起こし

言語識別

使用事例

音声テキスト変換

多言語音声認識

複数言語の音声を対応する言語のテキストに変換します

高品質な多言語書き起こしをサポート

音声翻訳

ある言語の音声を直接別の言語のテキストに翻訳します

クロスランゲージのリアルタイム翻訳を実現

音声分析

言語識別

音声中の言語タイプを自動識別します

複数言語を正確に識別

音声アライメント

音声とテキストを時間的にアライメントします

正確な音声-テキストアライメント情報を生成

🚀 OWSM: Open Whisper-style Speech Model

OWSMは、ESPnetを含む公開データとオープンソースツールキットを使用して、完全にオープンな音声基礎モデルの開発を目指しています。

推論の例は、私たちのプロジェクトページで見ることができます。デモはこちらから利用できます。

OWSM v3.1はOWSM v3の改良版です。ほとんどすべての評価ベンチマークにおいて、OWSM v3を大きく上回っています。 新しい学習データは含まれていません。代わりに、最先端の音声エンコーダであるE-Branchformerを利用しています。

このリポジトリのモデルは合計10.2億のパラメータを持ち、18万時間の公開音声データで学習されています。具体的には、以下の音声テキスト変換タスクをサポートしています。

音声認識
任意の言語間の音声翻訳
発話レベルのアラインメント
長文の文字起こし
言語識別

📚 詳細ドキュメント

モデル情報

属性	详情
モデルタイプ	OWSM: Open Whisper-style Speech Model
学習データ	180k時間の公開音声データ

引用情報

OWSM-CTC

@inproceedings{owsm-ctc,
    title = "{OWSM}-{CTC}: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification",
    author = "Peng, Yifan  and
      Sudo, Yui  and
      Shakeel, Muhammad  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)",
    year = "2024",
    month= {8},
    url = "https://aclanthology.org/2024.acl-long.549",
}

OWSM v3.1 and v3.2

@inproceedings{owsm-v32,
  title={On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models},
  author={Jinchuan Tian and Yifan Peng and William Chen and Kwanghee Choi and Karen Livescu and Shinji Watanabe},
  booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
  year={2024},
  month={9},
  pdf="https://arxiv.org/pdf/2406.09282"
}
@inproceedings{owsm-v31,
  title={{OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer}},
  author={Yifan Peng and Jinchuan Tian and William Chen and Siddhant Arora and Brian Yan and Yui Sudo and Muhammad Shakeel and Kwanghee Choi and Jiatong Shi and Xuankai Chang and Jee-weon Jung and Shinji Watanabe},
  booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
  year={2024},
  month={9},
  pdf="https://arxiv.org/pdf/2401.16658",
}

初期のOWSM (v1, v2, v3)

@inproceedings{owsm,
  title={Reproducing Whisper-Style Training Using An Open-Source Toolkit And Publicly Available Data},
  author={Yifan Peng and Jinchuan Tian and Brian Yan and Dan Berrebbi and Xuankai Chang and Xinjian Li and Jiatong Shi and Siddhant Arora and William Chen and Roshan Sharma and Wangyou Zhang and Yui Sudo and Muhammad Shakeel and Jee-weon Jung and Soumi Maiti and Shinji Watanabe},
  booktitle={Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  year={2023},
  month={12},
  pdf="https://arxiv.org/pdf/2309.13876",
}