owsm_v3.1_ebf开源语音模型 - 免费支持多语言语音识别与翻译

首页

Owsm V3.1 Ebf

由 espnet 开发

OWSM是一个开源Whisper风格语音模型，基于公开数据和ESPnet工具包开发，支持多语言语音识别、翻译等任务。

语音识别其他#多语言语音转文本 #开源语音基础模型 #E-Branchformer编码器

下载量 291

发布时间 : 12/22/2023

模型简介

OWSM旨在利用公开可用数据和开源工具包开发完全开放的语音基础模型，支持语音识别、任意语言间语音翻译、语句级对齐、长文本转录和语言识别等多种任务。

模型特点

开源语音基础模型

完全基于公开数据和开源工具包开发，确保透明性和可复现性。

改进的语音编码器

采用先进的E-Branchformer编码器，相比前代版本性能显著提升。

多任务支持

单一模型支持语音识别、翻译、对齐、长文本转录和语言识别等多种任务。

大规模训练数据

基于18万小时公开语音数据训练，覆盖多种语言和场景。

模型能力

语音识别

跨语言语音翻译

语句级对齐

长文本转录

语言识别

使用案例

语音转文本

多语言语音识别

将多种语言的语音转换为对应语言的文本

支持高质量的多语言转录

语音翻译

直接将一种语言的语音翻译为另一种语言的文本

实现跨语言即时翻译

语音分析

语言识别

自动识别语音中的语言类型

准确识别多种语言

语音对齐

将语音与文本进行时间对齐

生成精确的语音-文本对齐信息

🚀 OWSM：开放Whisper风格语音模型

OWSM旨在利用公开可用的数据和开源工具包（包括 ESPnet）开发完全开放的语音基础模型。

推理示例可在我们的项目页面找到。我们的演示可在此处查看。

OWSM v3.1 是OWSM v3的改进版本。它在几乎所有评估基准中都显著优于OWSM v3。 我们没有添加任何新的训练数据，而是采用了最先进的语音编码器 E-Branchformer。

本仓库中的模型总共有10.2亿个参数，并且在18万小时的公开语音数据上进行了训练。具体而言，它支持以下语音转文本任务：

语音识别
任意语言到任意语言的语音翻译
话语级对齐
长文本转录
语言识别

✨ 主要特性

开放模型：使用公开数据和开源工具包开发，保证模型的开放性和可复现性。
性能提升：OWSM v3.1在评估基准中显著优于OWSM v3。
多任务支持：支持多种语音转文本任务，具有广泛的应用场景。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

文档中未提及代码示例，故跳过此章节。

📚 详细文档

模型信息

属性	详情
模型类型	OWSM v3.1是改进版的开放语音基础模型
训练数据	18万小时的公开语音数据
参数数量	10.2亿

任务支持

该模型支持以下语音转文本任务：

语音识别
任意语言到任意语言的语音翻译
话语级对齐
长文本转录
语言识别

🔧 技术细节

文档中未提及技术实现细节，故跳过此章节。

📄 许可证

本项目采用 CC BY 4.0 许可证。

📚 引用信息

OWSM-CTC

@inproceedings{owsm-ctc,
    title = "{OWSM}-{CTC}: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification",
    author = "Peng, Yifan  and
      Sudo, Yui  and
      Shakeel, Muhammad  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)",
    year = "2024",
    month= {8},
    url = "https://aclanthology.org/2024.acl-long.549",
}

OWSM v3.1和v3.2

@inproceedings{owsm-v32,
  title={On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models},
  author={Jinchuan Tian and Yifan Peng and William Chen and Kwanghee Choi and Karen Livescu and Shinji Watanabe},
  booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
  year={2024},
  month={9},
  pdf="https://arxiv.org/pdf/2406.09282"
}
@inproceedings{owsm-v31,
  title={{OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer}},
  author={Yifan Peng and Jinchuan Tian and William Chen and Siddhant Arora and Brian Yan and Yui Sudo and Muhammad Shakeel and Kwanghee Choi and Jiatong Shi and Xuankai Chang and Jee-weon Jung and Shinji Watanabe},
  booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
  year={2024},
  month={9},
  pdf="https://arxiv.org/pdf/2401.16658",
}

初始OWSM (v1, v2, v3)

@inproceedings{owsm,
  title={Reproducing Whisper-Style Training Using An Open-Source Toolkit And Publicly Available Data},
  author={Yifan Peng and Jinchuan Tian and Brian Yan and Dan Berrebbi and Xuankai Chang and Xinjian Li and Jiatong Shi and Siddhant Arora and William Chen and Roshan Sharma and Wangyou Zhang and Yui Sudo and Muhammad Shakeel and Jee-weon Jung and Soumi Maiti and Shinji Watanabe},
  booktitle={Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  year={2023},
  month={12},
  pdf="https://arxiv.org/pdf/2309.13876",
}