P

Phi 4 Multimodal Instruct Commonvoice Zh Tw

由JacobLinCool開發
基於microsoft/Phi-4-multimodal-instruct微調的臺灣普通話語音識別模型,在臺灣普通話通用語音19.0數據集上訓練
下載量 28
發布時間 : 3/13/2025

模型概述

針對臺灣普通話(zh-TW)優化的自動語音識別模型,能夠將臺灣普通話語音轉換為繁體中文文本

模型特點

臺灣普通話優化
專門針對臺灣普通話的語音模式和詞彙進行優化
多模態能力
基於多模態基礎模型,具備處理音頻輸入的能力
高效微調
使用LoRA適配器進行高效微調,保留基礎模型能力的同時優化語音識別性能

模型能力

臺灣普通話語音識別
音頻轉文本
自動字幕生成

使用案例

語音轉文字
會議記錄
將臺灣普通話會議錄音轉換為文本記錄
CER 6.67%, WER 31.18%
內容字幕
為臺灣普通話視頻內容生成自動字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase