開源base_10k_8khz_pt模型 - 支持8kHz，實現精準葡萄牙語自動語音識別

首頁

Base 10k 8khz Pt

由lgris開發

基於facebook/wav2vec2-base-10k-voxpopuli微調的葡萄牙語自動語音識別模型，支持8kHz採樣率

語音識別

Transformers

其他開源協議:Apache-2.0 #巴西葡萄牙語ASR #多源數據集微調 #低採樣率適配

下載量 28

發布時間 : 3/2/2022

模型概述

這是一個針對葡萄牙語優化的自動語音識別(ASR)模型，基於Wav2vec 2.0架構，使用多個葡萄牙語語音數據集進行微調。

模型特點

多數據集微調

使用CETUC、Common Voice、Lapsbm等多個葡萄牙語語音數據集進行微調，提高識別準確性

8kHz採樣率支持

優化支持8kHz採樣率的語音輸入，適應更多實際應用場景

巴西葡萄牙語優化

特別針對巴西葡萄牙語變體進行優化，識別效果更好

模型能力

葡萄牙語語音識別

音頻轉文本

支持8kHz採樣率輸入

使用案例

語音轉錄

會議記錄自動轉錄

將葡萄牙語會議錄音自動轉換為文字記錄

語音筆記轉換

將葡萄牙語語音筆記轉換為可編輯文本

無障礙應用

即時字幕生成

為葡萄牙語視頻內容生成即時字幕

🚀 Wav2vec 2.0 用於 8kHz 葡萄牙語

本項目是一個基於 facebook/wav2vec2-base-10k-voxpopuli 微調的模型，旨在處理 8kHz 葡萄牙語語音數據。該模型利用了多個數據集進行微調，為葡萄牙語的自動語音識別任務提供了強大的支持。

✨ 主要特性

多數據集微調：使用了多個不同的數據集進行微調，包括 CETUC、Common Voice 7.0、Lapsbm 等，確保模型在不同場景和語音特徵下都有良好的表現。
廣泛的應用場景：適用於音頻、語音處理等領域，可用於自動語音識別等任務。

📦 安裝指南

原文檔未提供安裝步驟，此章節跳過。

💻 使用示例

原文檔未提供代碼示例，此章節跳過。

📚 詳細文檔

微調模型使用的數據集

屬性	詳情
數據集	本模型使用了以下數據集進行微調：

CETUC：包含約 145 小時的巴西葡萄牙語語音，分佈在 50 名男性和 50 名女性說話者中，每人朗讀約 1000 個從 CETEN - Folha 語料庫中選出的語音平衡句子。
Common Voice 7.0：由 Mozilla 基金會發起的項目，旨在創建多種語言的開放數據集。在該項目中，志願者通過官方網站捐贈和驗證語音數據。
Lapsbm：“Falabrasil - UFPA” 是 Fala Brasil 團隊用於巴西葡萄牙語自動語音識別系統基準測試的數據集。包含 35 名說話者（10 名女性），每人朗讀 20 個獨特的句子，總計 700 條巴西葡萄牙語語音。音頻在 22.05 kHz 下錄製，未進行環境控制。
Multilingual Librispeech (MLS)：一個多語言的大規模數據集。MLS 基於 LibriVox 等公共領域的有聲讀物錄音。該數據集包含多種語言的總計 6000 小時轉錄數據。本項目中使用的葡萄牙語數據集（主要是巴西變體）約有 284 小時的語音，來自 62 名說話者朗讀的 55 本有聲讀物。
Multilingual TEDx：一個包含 8 種源語言的 TEDx 演講音頻記錄集合。葡萄牙語數據集（主要是巴西葡萄牙語變體）包含 164 小時的轉錄語音。
Sidney (SID)：包含 72 名說話者（20 名女性）錄製的 5777 條語音，說話者年齡從 17 歲到 59 歲，記錄了出生地、年齡、性別、教育程度和職業等信息。
VoxForge：一個旨在構建聲學模型開放數據集的項目。語料庫包含約 100 名說話者和 4130 條巴西葡萄牙語語音，採樣率從 16kHz 到 44.1kHz 不等。
VoxPopuli |