W

Wav2vec2 Xlsr 1b Finnish Lm V2

由aapot開發
基於Facebook的wav2vec2-xls-r-1b模型針對芬蘭語自動語音識別任務進行微調的版本,使用275.6小時芬蘭語標註語音數據訓練
下載量 61
發布時間 : 3/2/2022

模型概述

該模型是用於芬蘭語語音轉文本的自動語音識別(ASR)模型,包含聲學模型和KenLM語言模型,在Common Voice 7.0測試集上達到4.09%的詞錯誤率

模型特點

高性能芬蘭語識別
在Common Voice 7.0測試集上達到4.09%的詞錯誤率和0.88%的字符錯誤率
大規模預訓練基礎
基於10億參數的wav2vec2-xls-r-1b模型微調,該模型在43.6萬小時多語言數據上預訓練
集成語言模型
包含專門針對芬蘭語優化的KenLM 5-gram語言模型,顯著提升解碼效果
多樣化訓練數據
使用275.6小時芬蘭語數據微調,來源包括Common Voice、議會會議、廣播等多種場景

模型能力

芬蘭語語音識別
短音頻轉錄(最長20秒)
帶語言模型的語音解碼

使用案例

語音轉文字
會議記錄轉錄
將芬蘭語會議錄音自動轉為文字記錄
適用於正式場合語音,準確率較高
語音助手
為芬蘭語語音助手提供語音識別能力
需注意對非正式口語的適應性
媒體處理
廣播內容字幕生成
自動為芬蘭語廣播節目生成字幕
對標準廣播語音效果良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase