O

Owsm Ctc V3.1 1B

由espnet開發
OWSM-CTC是一個基於分層多任務自條件CTC的純編碼器語音基礎模型,支持多語言語音識別、語音翻譯和語言識別。
下載量 116
發布時間 : 2/23/2024

模型概述

該模型在180k小時的公開音頻數據上訓練,遵循開放Whisper風格語音模型(OWSM)項目的設計,支持多語言語音識別、任意到任意語音翻譯和語言識別。

模型特點

多任務學習
支持語音識別、語音翻譯和語言識別三種任務
大規模訓練
在180k小時的公開音頻數據上訓練
高效推理
提供批量推理和長音頻處理能力
CTC強制對齊
支持使用ctc-segmentation進行高效的時間戳對齊

模型能力

多語言語音識別
任意到任意語音翻譯
語言識別
批量音頻處理
長音頻分割處理
CTC時間戳對齊

使用案例

語音轉寫
會議記錄轉錄
將會議錄音轉換為文字記錄
高準確率的轉錄文本
語音翻譯
即時語音翻譯
將一種語言的語音即時翻譯為另一種語言的文本
流暢的跨語言溝通
音頻分析
語言識別
識別音頻中的語言類型
準確的語言分類
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase