O

Owsm V3.1 Ebf

由espnet開發
OWSM是一個開源Whisper風格語音模型,基於公開數據和ESPnet工具包開發,支持多語言語音識別、翻譯等任務。
下載量 291
發布時間 : 12/22/2023

模型概述

OWSM旨在利用公開可用數據和開源工具包開發完全開放的語音基礎模型,支持語音識別、任意語言間語音翻譯、語句級對齊、長文本轉錄和語言識別等多種任務。

模型特點

開源語音基礎模型
完全基於公開數據和開源工具包開發,確保透明性和可復現性。
改進的語音編碼器
採用先進的E-Branchformer編碼器,相比前代版本性能顯著提升。
多任務支持
單一模型支持語音識別、翻譯、對齊、長文本轉錄和語言識別等多種任務。
大規模訓練數據
基於18萬小時公開語音數據訓練,覆蓋多種語言和場景。

模型能力

語音識別
跨語言語音翻譯
語句級對齊
長文本轉錄
語言識別

使用案例

語音轉文本
多語言語音識別
將多種語言的語音轉換為對應語言的文本
支持高質量的多語言轉錄
語音翻譯
直接將一種語言的語音翻譯為另一種語言的文本
實現跨語言即時翻譯
語音分析
語言識別
自動識別語音中的語言類型
準確識別多種語言
語音對齊
將語音與文本進行時間對齊
生成精確的語音-文本對齊信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase