owsm_v3.1_ebf開源語音模型 - 免費支持多語言語音識別與翻譯

首頁

Owsm V3.1 Ebf

由espnet開發

OWSM是一個開源Whisper風格語音模型，基於公開數據和ESPnet工具包開發，支持多語言語音識別、翻譯等任務。

語音識別其他#多語言語音轉文本 #開源語音基礎模型 #E-Branchformer編碼器

下載量 291

發布時間 : 12/22/2023

模型概述

OWSM旨在利用公開可用數據和開源工具包開發完全開放的語音基礎模型，支持語音識別、任意語言間語音翻譯、語句級對齊、長文本轉錄和語言識別等多種任務。

模型特點

開源語音基礎模型

完全基於公開數據和開源工具包開發，確保透明性和可復現性。

改進的語音編碼器

採用先進的E-Branchformer編碼器，相比前代版本性能顯著提升。

多任務支持

單一模型支持語音識別、翻譯、對齊、長文本轉錄和語言識別等多種任務。

大規模訓練數據

基於18萬小時公開語音數據訓練，覆蓋多種語言和場景。

模型能力

語音識別

跨語言語音翻譯

語句級對齊

長文本轉錄

語言識別

使用案例

語音轉文本

多語言語音識別

將多種語言的語音轉換為對應語言的文本

支持高質量的多語言轉錄

語音翻譯

直接將一種語言的語音翻譯為另一種語言的文本

實現跨語言即時翻譯

語音分析

語言識別

自動識別語音中的語言類型

準確識別多種語言

語音對齊

將語音與文本進行時間對齊

生成精確的語音-文本對齊信息

🚀 OWSM：開放Whisper風格語音模型

OWSM旨在利用公開可用的數據和開源工具包（包括 ESPnet）開發完全開放的語音基礎模型。

推理示例可在我們的項目頁面找到。我們的演示可在此處查看。

OWSM v3.1 是OWSM v3的改進版本。它在幾乎所有評估基準中都顯著優於OWSM v3。 我們沒有添加任何新的訓練數據，而是採用了最先進的語音編碼器 E-Branchformer。

本倉庫中的模型總共有10.2億個參數，並且在18萬小時的公開語音數據上進行了訓練。具體而言，它支持以下語音轉文本任務：

語音識別
任意語言到任意語言的語音翻譯
話語級對齊
長文本轉錄
語言識別

✨ 主要特性

開放模型：使用公開數據和開源工具包開發，保證模型的開放性和可復現性。
性能提升：OWSM v3.1在評估基準中顯著優於OWSM v3。
多任務支持：支持多種語音轉文本任務，具有廣泛的應用場景。

📦 安裝指南

文檔中未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔中未提及代碼示例，故跳過此章節。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	OWSM v3.1是改進版的開放語音基礎模型
訓練數據	18萬小時的公開語音數據
參數數量	10.2億

任務支持

該模型支持以下語音轉文本任務：

語音識別
任意語言到任意語言的語音翻譯
話語級對齊
長文本轉錄
語言識別

🔧 技術細節

文檔中未提及技術實現細節，故跳過此章節。

📄 許可證

本項目採用 CC BY 4.0 許可證。

📚 引用信息

OWSM-CTC

@inproceedings{owsm-ctc,
    title = "{OWSM}-{CTC}: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification",
    author = "Peng, Yifan  and
      Sudo, Yui  and
      Shakeel, Muhammad  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)",
    year = "2024",
    month= {8},
    url = "https://aclanthology.org/2024.acl-long.549",
}

OWSM v3.1和v3.2

@inproceedings{owsm-v32,
  title={On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models},
  author={Jinchuan Tian and Yifan Peng and William Chen and Kwanghee Choi and Karen Livescu and Shinji Watanabe},
  booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
  year={2024},
  month={9},
  pdf="https://arxiv.org/pdf/2406.09282"
}
@inproceedings{owsm-v31,
  title={{OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer}},
  author={Yifan Peng and Jinchuan Tian and William Chen and Siddhant Arora and Brian Yan and Yui Sudo and Muhammad Shakeel and Kwanghee Choi and Jiatong Shi and Xuankai Chang and Jee-weon Jung and Shinji Watanabe},
  booktitle={Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH)},
  year={2024},
  month={9},
  pdf="https://arxiv.org/pdf/2401.16658",
}

初始OWSM (v1, v2, v3)

@inproceedings{owsm,
  title={Reproducing Whisper-Style Training Using An Open-Source Toolkit And Publicly Available Data},
  author={Yifan Peng and Jinchuan Tian and Brian Yan and Dan Berrebbi and Xuankai Chang and Xinjian Li and Jiatong Shi and Siddhant Arora and William Chen and Roshan Sharma and Wangyou Zhang and Yui Sudo and Muhammad Shakeel and Jee-weon Jung and Soumi Maiti and Shinji Watanabe},
  booktitle={Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  year={2023},
  month={12},
  pdf="https://arxiv.org/pdf/2309.13876",
}