N

Navaistt V1 Medium

由islomov開發
基於Whisper medium模型微調的烏茲別克語語音識別模型,支持塔什干方言,訓練數據約700小時
下載量 3,081
發布時間 : 5/2/2025

模型概述

專為烏茲別克語優化的自動語音識別模型,特別針對塔什干方言進行優化,適用於音頻轉錄任務

模型特點

塔什干方言優化
特別關注塔什干方言音頻材料,使模型在該方言上表現優異
多樣化訓練數據
使用約700小時多樣化音頻數據,包括播客、有聲書和Common Voice語料
混合質量數據訓練
60%人工轉錄與40%偽轉錄材料(Gemini 2.5 Pro生成)的混合訓練策略

模型能力

烏茲別克語語音識別
塔什干方言識別
音頻轉錄
30秒內短語音處理

使用案例

語音轉錄
播客內容轉錄
將烏茲別克語播客內容自動轉為文字
詞錯誤率約13%
有聲書轉錄
將烏茲別克語有聲書轉為文本格式
語音助手
烏茲別克語語音輸入
為應用程序添加烏茲別克語語音輸入功能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase