🚀 OWSM:開放Whisper風格語音模型
OWSM旨在利用公開可用的數據和開源工具包(包括 ESPnet)開發完全開放的語音基礎模型。
推理示例可在我們的 項目頁面 找到。我們的演示可在 此處 查看。
OWSM v3.1 是OWSM v3的改進版本。它在幾乎所有評估基準中都顯著優於OWSM v3。 我們沒有添加任何新的訓練數據,而是採用了最先進的語音編碼器 E-Branchformer。
本倉庫中的模型總共有10.2億個參數,並且在18萬小時的公開語音數據上進行了訓練。具體而言,它支持以下語音轉文本任務:
- 語音識別
- 任意語言到任意語言的語音翻譯
- 話語級對齊
- 長文本轉錄
- 語言識別
✨ 主要特性
- 開放模型:使用公開數據和開源工具包開發,保證模型的開放性和可復現性。
- 性能提升:OWSM v3.1在評估基準中顯著優於OWSM v3。
- 多任務支持:支持多種語音轉文本任務,具有廣泛的應用場景。
📦 安裝指南
文檔中未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔中未提及代碼示例,故跳過此章節。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
OWSM v3.1是改進版的開放語音基礎模型 |
訓練數據 |
18萬小時的公開語音數據 |
參數數量 |
10.2億 |
任務支持
該模型支持以下語音轉文本任務:
- 語音識別
- 任意語言到任意語言的語音翻譯
- 話語級對齊
- 長文本轉錄
- 語言識別
相關鏈接
🔧 技術細節
文檔中未提及技術實現細節,故跳過此章節。
📄 許可證
本項目採用 CC BY 4.0 許可證。
📚 引用信息
OWSM-CTC
@inproceedings{owsm-ctc,
title = "{OWSM}-{CTC}: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification",
author = "Peng, Yifan and
Sudo, Yui and
Shakeel, Muhammad and
Watanabe, Shinji",
booktitle = "Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)",
year = "2024",
month= {8},
url = "https://aclanthology.org/2024.acl-long.549",
}
OWSM v3.1和v3.2
@inproceedings{owsm-v32,
title={On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models},
author={Jinchuan Tian and Yifan Peng and William Chen and Kwanghee Choi and Karen Livescu and Shinji Watanabe},
booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year={2024},
month={9},
pdf="https://arxiv.org/pdf/2406.09282"
}
@inproceedings{owsm-v31,
title={{OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer}},
author={Yifan Peng and Jinchuan Tian and William Chen and Siddhant Arora and Brian Yan and Yui Sudo and Muhammad Shakeel and Kwanghee Choi and Jiatong Shi and Xuankai Chang and Jee-weon Jung and Shinji Watanabe},
booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year={2024},
month={9},
pdf="https://arxiv.org/pdf/2401.16658",
}
初始OWSM (v1, v2, v3)
@inproceedings{owsm,
title={Reproducing Whisper-Style Training Using An Open-Source Toolkit And Publicly Available Data},
author={Yifan Peng and Jinchuan Tian and Brian Yan and Dan Berrebbi and Xuankai Chang and Xinjian Li and Jiatong Shi and Siddhant Arora and William Chen and Roshan Sharma and Wangyou Zhang and Yui Sudo and Muhammad Shakeel and Jee-weon Jung and Soumi Maiti and Shinji Watanabe},
booktitle={Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
year={2023},
month={12},
pdf="https://arxiv.org/pdf/2309.13876",
}