w2v-bert-2.0開源語音編碼器 - 支持143種語言，預訓練海量無標註音頻

首頁

W2v Bert 2.0

由facebook開發

基於Conformer架構的語音編碼器，在450萬小時無標註音頻數據上預訓練，支持143種以上語言

語音識別

Transformers

支持多種語言開源協議:MIT #多語言語音編碼 #Conformer架構 #大規模預訓練

下載量 477.05k

發布時間 : 12/19/2023

模型概述

W2v-BERT 2.0是一個強大的語音編碼器，採用Conformer架構，經過大規模多語言音頻數據預訓練，可作為語音處理任務的基礎模型。

模型特點

大規模多語言預訓練

在450萬小時無標註音頻數據上預訓練，覆蓋143種以上語言

先進架構

採用Conformer架構，結合CNN和Transformer的優勢

靈活應用

可作為基礎模型進行微調，適用於多種語音處理任務

模型能力

語音特徵提取

多語言語音處理

音頻嵌入生成

使用案例

語音識別

自動語音識別(ASR)

通過微調模型實現高精度語音轉文本

支持多種語言的語音識別

音頻分析

音頻分類

利用提取的音頻特徵進行分類任務

🚀 W2v-BERT 2.0 語音編碼器

W2v-BERT 2.0 語音編碼器是我們 Seamless 模型的核心組件。我們按照論文第 3.2.1 節的描述，將基於 Conformer 的 W2v-BERT 2.0 語音編碼器進行開源。

該模型在 450 萬小時的無標籤音頻數據上進行了預訓練，涵蓋了超過 143 種語言。若要將其用於自動語音識別（ASR）或音頻分類等下游任務，則需要進行微調。

屬性	詳情
模型名稱	W2v-BERT 2.0
參數數量	600M
檢查點	checkpoint

該模型及其訓練得到了 🤗 Transformers 的支持，更多信息請參閱文檔。

🚀 快速開始

支持語言

本模型支持以下語言：

af、am、ar、as、az、be、bn、bs、bg、ca、cs、zh、cy、da、de、el、en、et、fi、fr、or、om、ga、gl、gu、ha、he、hi、hr、hu、hy、ig、id、is、it、jv、ja、kn、ka、kk、mn、km、ky、ko、lo、ln、lt、lb、lg、lv、ml、mr、mk、mt、mi、my、nl、nb、ne、ny、oc、pa、ps、fa、pl、pt、ro、ru、sk、sl、sn、sd、so、es、sr、sv、sw、ta、te、tg、tl、th、tr、uk、ur、uz、vi、wo、xh、yo、ms、zu、ary、arz、yue、kea

許可證

本項目採用 MIT 許可證。

✨ 主要特性

基於 Conformer 架構，是 Seamless 模型的核心。
在 450 萬小時的無標籤音頻數據上預訓練，支持超 143 種語言。
需微調後用於下游任務，如自動語音識別（ASR）或音頻分類。
得到 🤗 Transformers 的支持。

📦 安裝指南

本 README 未提及具體安裝步驟，你可參考以下相關鏈接中的安裝說明：

💻 使用示例

基礎用法

本模型是一個沒有任何建模頭的原始檢查點，因此需要微調才能用於 ASR 等下游任務。不過，你可以使用以下代碼片段從頂層提取音頻嵌入：

from transformers import AutoFeatureExtractor, Wav2Vec2BertModel
import torch
from datasets import load_dataset

dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate

processor = AutoProcessor.from_pretrained("facebook/w2v-bert-2.0")
model = Wav2Vec2BertModel.from_pretrained("facebook/w2v-bert-2.0")

# audio file is decoded on the fly
inputs = processor(dataset[0]["audio"]["array"], sampling_rate=sampling_rate, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

高級用法

在完成安裝步驟後，可在 Seamless Communication 中使用該模型，以下是如何對語音編碼器進行前向傳播的示例：

import torch

from fairseq2.data.audio import AudioDecoder, WaveformToFbankConverter
from fairseq2.memory import MemoryBlock
from fairseq2.nn.padding import get_seqs_and_padding_mask
from pathlib import Path
from seamless_communication.models.conformer_shaw import load_conformer_shaw_model


audio_wav_path, device, dtype = ...
audio_decoder = AudioDecoder(dtype=torch.float32, device=device)
fbank_converter = WaveformToFbankConverter(
    num_mel_bins=80,
    waveform_scale=2**15,
    channel_last=True,
    standardize=True,
    device=device,
    dtype=dtype,
)
collater = Collater(pad_value=1)

model = load_conformer_shaw_model("conformer_shaw", device=device, dtype=dtype)
model.eval()

with Path(audio_wav_path).open("rb") as fb:
    block = MemoryBlock(fb.read())

decoded_audio = audio_decoder(block)
src = collater(fbank_converter(decoded_audio))["fbank"]
seqs, padding_mask = get_seqs_and_padding_mask(src)

with torch.inference_mode():
  seqs, padding_mask = model.encoder_frontend(seqs, padding_mask)
  seqs, padding_mask = model.encoder(seqs, padding_mask)