wav2vec2-large-960h-lv60-self-with-wikipedia-lm開源ASR系統

首頁

Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm

由gxbag開發

基於Facebook的wav2vec2-large-960h-lv60-self模型，通過增強維基百科語言模型改進的自動語音識別(ASR)系統

語音識別

Transformers

#高精度語音識別 #維基百科增強 #5-gram語言模型

下載量 15

發布時間 : 4/20/2022

模型概述

該模型結合了Facebook的wav2vec2語音識別架構和維基百科文本訓練的5-gram語言模型，提高了語音轉文字的準確性。

模型特點

增強語言模型

使用維基百科全文訓練的5-gram KenLM語言模型，提高了識別準確性

大規模訓練

基於960小時語音數據和800多萬單詞的文本數據訓練

優化處理

對維基百科數據進行了清理，移除了參考文獻、外部鏈接等非正文內容

高效剪枝

語言模型中所有3-gram及更大規模的單例詞均被剪枝，保持模型效率

模型能力

英語語音識別

長音頻處理(支持分塊處理)

高準確率轉錄

使用案例

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

提高會議記錄效率，便於後期檢索

播客轉錄

將播客內容轉換為文字版本

便於內容索引和SEO優化

輔助技術

即時字幕生成

為視頻或直播生成即時字幕

提高內容可訪問性

🚀 facebook/wav2vec2-large-960h-lv60-self增強版

本項目是 facebook/wav2vec2-large-960h-lv60-self 模型，並結合維基百科語言模型進行了增強。該模型能夠在語音識別任務中提供更準確、更自然的識別結果，提升語音處理的效率和質量。

🚀 快速開始

以下是使用該模型進行自動語音識別的示例代碼：

from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="gxbag/wav2vec2-large-960h-lv60-self-with-wikipedia-lm")
output = pipe("/path/to/audio.wav", chunk_length_s=30, stride_length_s=(6, 3))
output

📦 安裝指南

文檔未提及安裝相關內容，若有安裝需求，請參考 transformers 庫的官方安裝說明。

💻 使用示例

基礎用法

from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="gxbag/wav2vec2-large-960h-lv60-self-with-wikipedia-lm")
output = pipe("/path/to/audio.wav", chunk_length_s=30, stride_length_s=(6, 3))
output

高級用法

文檔未提及高級用法相關代碼示例，若有高級場景需求，可進一步探索模型的參數設置和功能擴展。

🔧 技術細節

數據集

使用的數據集為 wikipedia/20200501.en，包含了所有的文章。對數據進行了清洗，去除了參考文獻、外部鏈接以及括號內的所有文本，處理後的數據共有 8092546 個單詞。

語言模型

語言模型使用 KenLM 構建，是一個 5-gram 模型，其中 3-gram 及更大的單例均被修剪。構建命令如下： kenlm/build/bin/lmplz -o 5 -S 120G --vocab_estimate 8092546 --text text.txt --arpa text.arpa --prune 0 0 1