🚀 OWSM:开放Whisper风格语音模型
OWSM旨在利用公开可用的数据和开源工具包(包括 ESPnet)开发完全开放的语音基础模型。
推理示例可在我们的 项目页面 找到。我们的演示可在 此处 查看。
OWSM v3.1 是OWSM v3的改进版本。它在几乎所有评估基准中都显著优于OWSM v3。 我们没有添加任何新的训练数据,而是采用了最先进的语音编码器 E-Branchformer。
本仓库中的模型总共有10.2亿个参数,并且在18万小时的公开语音数据上进行了训练。具体而言,它支持以下语音转文本任务:
- 语音识别
- 任意语言到任意语言的语音翻译
- 话语级对齐
- 长文本转录
- 语言识别
✨ 主要特性
- 开放模型:使用公开数据和开源工具包开发,保证模型的开放性和可复现性。
- 性能提升:OWSM v3.1在评估基准中显著优于OWSM v3。
- 多任务支持:支持多种语音转文本任务,具有广泛的应用场景。
📦 安装指南
文档中未提及安装步骤,故跳过此章节。
💻 使用示例
文档中未提及代码示例,故跳过此章节。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
OWSM v3.1是改进版的开放语音基础模型 |
训练数据 |
18万小时的公开语音数据 |
参数数量 |
10.2亿 |
任务支持
该模型支持以下语音转文本任务:
- 语音识别
- 任意语言到任意语言的语音翻译
- 话语级对齐
- 长文本转录
- 语言识别
相关链接
🔧 技术细节
文档中未提及技术实现细节,故跳过此章节。
📄 许可证
本项目采用 CC BY 4.0 许可证。
📚 引用信息
OWSM-CTC
@inproceedings{owsm-ctc,
title = "{OWSM}-{CTC}: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification",
author = "Peng, Yifan and
Sudo, Yui and
Shakeel, Muhammad and
Watanabe, Shinji",
booktitle = "Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)",
year = "2024",
month= {8},
url = "https://aclanthology.org/2024.acl-long.549",
}
OWSM v3.1和v3.2
@inproceedings{owsm-v32,
title={On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models},
author={Jinchuan Tian and Yifan Peng and William Chen and Kwanghee Choi and Karen Livescu and Shinji Watanabe},
booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year={2024},
month={9},
pdf="https://arxiv.org/pdf/2406.09282"
}
@inproceedings{owsm-v31,
title={{OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer}},
author={Yifan Peng and Jinchuan Tian and William Chen and Siddhant Arora and Brian Yan and Yui Sudo and Muhammad Shakeel and Kwanghee Choi and Jiatong Shi and Xuankai Chang and Jee-weon Jung and Shinji Watanabe},
booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year={2024},
month={9},
pdf="https://arxiv.org/pdf/2401.16658",
}
初始OWSM (v1, v2, v3)
@inproceedings{owsm,
title={Reproducing Whisper-Style Training Using An Open-Source Toolkit And Publicly Available Data},
author={Yifan Peng and Jinchuan Tian and Brian Yan and Dan Berrebbi and Xuankai Chang and Xinjian Li and Jiatong Shi and Siddhant Arora and William Chen and Roshan Sharma and Wangyou Zhang and Yui Sudo and Muhammad Shakeel and Jee-weon Jung and Soumi Maiti and Shinji Watanabe},
booktitle={Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
year={2023},
month={12},
pdf="https://arxiv.org/pdf/2309.13876",
}