W

Wav2vec2 Large Xlsr 53 Japanese

由Ivydata開發
基於facebook/wav2vec2-large-xlsr-53微調的日語語音識別模型,支持16kHz採樣率音頻輸入
下載量 19
發布時間 : 5/11/2023

模型概述

該模型是在XLSR-53大模型基礎上,使用Common Voice、JVS和JSUT日語數據集微調而成的語音識別模型,專門用於日語語音轉文本任務。

模型特點

多數據集微調
使用Common Voice、JVS和JSUT三個日語數據集進行微調,提高了模型對日語語音的識別能力
無需語言模型
可直接使用,無需額外語言模型支持
高性能
在TEDxJP-10K數據集上CER為27.87%,優於同類日語語音識別模型

模型能力

日語語音識別
16kHz音頻處理
即時語音轉文本

使用案例

語音轉錄
日語會議記錄
將日語會議錄音自動轉換為文字記錄
準確率約72.13%(基於CER指標)
日語字幕生成
為日語視頻內容自動生成字幕
語音助手
日語語音指令識別
用於日語語音助手或智能家居設備的語音指令識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase