hubert-base-korean開源語音模型 - 免費從原始波形學特徵助力語音處理

首頁

Hubert Base Korean

由team-lucid開發

Hubert（Hidden-Unit BERT）是Facebook提出的一種語音表徵學習模型，採用自監督學習方式直接從原始波形信號中學習語音特徵。

語音識別韓語開源協議:Apache-2.0 #韓語語音識別 #自監督學習 #TPU訓練

下載量 54

發布時間 : 5/29/2023

模型概述

這是一個基於Hubert架構的韓語語音識別模型，通過自監督學習從原始音頻中提取特徵，適用於韓語語音處理任務。

模型特點

自監督學習

直接從原始波形信號中學習語音特徵，無需大量標註數據

韓語優化

專門針對韓語語音數據進行訓練和優化

TPU訓練

使用谷歌的TPU Research Cloud（TRC）提供的Cloud TPU進行訓練

模型能力

韓語語音識別

語音特徵提取

音頻信號處理

使用案例

語音識別

韓語語音轉文本

將韓語語音轉換為文本內容

語音處理

語音特徵分析

提取語音信號的特徵表示用於下游任務

🚀 hubert-base-korean

Hubert-base-korean是用於自動語音識別的模型，基於Facebook提出的Hubert架構，採用自監督學習方式直接從原始波形學習語音信號，在韓語語音處理方面表現出色。

🚀 快速開始

Pytorch

import torch
from transformers import HubertModel

model = HubertModel.from_pretrained("team-lucid/hubert-base-korean")

wav = torch.ones(1, 16000)
outputs = model(wav)
print(f"Input:   {wav.shape}")  # [1, 16000]
print(f"Output:  {outputs.last_hidden_state.shape}")  # [1, 49, 768]

JAX/Flax

import jax.numpy as jnp
from transformers import FlaxAutoModel

model = FlaxAutoModel.from_pretrained("team-lucid/hubert-base-korean", trust_remote_code=True)

wav = jnp.ones((1, 16000))
outputs = model(wav)
print(f"Input:   {wav.shape}")  # [1, 16000]
print(f"Output:  {outputs.last_hidden_state.shape}")  # [1, 49, 768]

✨ 主要特性

Hubert（Hidden-Unit BERT）是Facebook提出的語音表徵學習模型。與傳統的語音識別模型不同，Hubert採用自監督學習方法，直接從原始波形中學習語音信號。該研究使用由谷歌的TPU Research Cloud（TRC）支持的Cloud TPU進行訓練。

📚 詳細文檔

模型描述

屬性	詳情
模型類型	Base：參數95M；Large：參數317M
CNN Encoder strides	Base和Large均為5, 2, 2, 2, 2, 2, 2
CNN Encoder kernel width	Base和Large均為10, 3, 3, 3, 3, 2, 2
CNN Encoder channel	Base和Large均為512
Transformer Encoder Layer	Base為12；Large為24
Transformer Encoder embedding dim	Base為768；Large為1024
Transformer Encoder inner FFN dim	Base為3072；Large為4096
Transformer Encoder attention heads	Base為8；Large為16
Projection dim	Base為256；Large為768

訓練詳情

訓練數據

該模型使用了由韓國科學技術信息通信部資助、韓國智能信息社會促進機構支持構建的數據集進行訓練，包括自由對話語音（普通男女）、多說話人語音合成數據和廣播內容對話體語音識別數據，共約4000小時的數據。

訓練過程

與原論文相同，先基於MFCC訓練Base模型，然後使用500個聚類進行k-means操作，再重新訓練Base和Large模型。

訓練超參數

超參數	Base	Large
Warmup Steps	32,000	32,000
Learning Rates	5e-4	1.5e-3
Batch Size	128	128
Weight Decay	0.01	0.01
Max Steps	400,000	400,000
Learning Rate Decay	0.1	0.1
\(Adam\beta_1\)	0.9	0.9
\(Adam\beta_2\)	0.99	0.99