O

Owsm Ctc V3.2 Ft 1B

由espnet開發
OWSM-CTC是基於分層多任務自條件CTC的僅編碼器語音基礎模型,支持多語言語音識別、語音翻譯和語言識別。
下載量 110
發布時間 : 9/24/2024

模型概述

該模型在180k小時的公開音頻數據上訓練,支持多語言語音識別、任意到任意語音翻譯和語言識別,是開放Whisper風格語音模型(OWSM)項目的一部分。

模型特點

多任務支持
同時支持語音識別、語音翻譯和語言識別三種任務
大規模訓練
基於180k小時的公開音頻數據訓練
高效推理
提供批量推理和長音頻處理能力
CTC強制對齊
支持使用ctc-segmentation進行音頻與文本的對齊

模型能力

多語言語音識別
任意到任意語音翻譯
語言識別
長音頻處理
批量推理

使用案例

語音轉寫
會議記錄自動轉寫
將會議錄音自動轉換為文字記錄
支持多種語言的準確轉寫
語音翻譯
即時語音翻譯
將一種語言的語音即時翻譯為另一種語言的文字
支持任意語言對之間的翻譯
音頻分析
語言識別
識別音頻中使用的語言
可識別多種語言
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase