w2v - bert - 2.0オープンソース音声エンコーダ - 143種類の言語をサポート、大量の無ラベルオーディオで事前学習

ホーム

W2v Bert 2.0

facebookによって開発

Conformerアーキテクチャに基づく音声エンコーダーで、450万時間のラベルなし音声データで事前学習され、143以上の言語をサポート

音声認識

Transformers

複数言語対応オープンソースライセンス:MIT #多言語音声エンコーディング #Conformerアーキテクチャ #大規模事前学習

ダウンロード数 477.05k

リリース時間 : 12/19/2023

モデル概要

W2v-BERT 2.0は強力な音声エンコーダーで、Conformerアーキテクチャを採用し、大規模な多言語音声データで事前学習されており、音声処理タスクの基礎モデルとして使用可能です。

モデル特徴

大規模多言語事前学習

450万時間のラベルなし音声データで事前学習され、143以上の言語をカバー

先進的なアーキテクチャ

CNNとTransformerの利点を組み合わせたConformerアーキテクチャを採用

柔軟な応用

微調整可能な基礎モデルとして、様々な音声処理タスクに適用可能

モデル能力

音声特徴抽出

多言語音声処理

音声埋め込み生成

使用事例

音声認識

自動音声認識(ASR)

モデルの微調整により高精度な音声からテキストへの変換を実現

複数言語の音声認識をサポート

音声分析

音声分類

抽出した音声特徴を利用して分類タスクを実行

🚀 W2v-BERT 2.0 音声エンコーダ

我々は、論文の3.2.1節に記載されているConformerベースのW2v-BERT 2.0音声エンコーダをオープンソース化しています。このエンコーダは、我々のSeamlessモデルの核心部分です。

このモデルは、143以上の言語をカバーする450万時間のラベルなし音声データで事前学習されています。自動音声認識（ASR）や音声分類などの下流タスクに使用するには、ファインチューニングが必要です。

モデル名	パラメータ数	チェックポイント
W2v-BERT 2.0	6億	チェックポイント

このモデルとその学習は🤗 Transformersでサポートされており、詳細はドキュメントを参照してください。

🚀 クイックスタート

🤗 Transformersの使用方法

これはモデリングヘッドのないベアチェックポイントであり、ASRなどの下流タスクに使用するにはファインチューニングが必要です。ただし、以下のコードスニペットを使用して、最上位層から音声埋め込みを抽出することができます。

from transformers import AutoFeatureExtractor, Wav2Vec2BertModel
import torch
from datasets import load_dataset

dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate

processor = AutoProcessor.from_pretrained("facebook/w2v-bert-2.0")
model = Wav2Vec2BertModel.from_pretrained("facebook/w2v-bert-2.0")

# audio file is decoded on the fly
inputs = processor(dataset[0]["audio"]["array"], sampling_rate=sampling_rate, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

モデルの使用方法の詳細については、以下のリソースを参照してください。

Seamless Communicationの使用方法

このモデルは、Seamless Communicationで公開されたもので、そこで使用することができます。

インストール手順を完了した後、音声エンコーダを通して順伝播を行う方法は次のとおりです。

import torch

from fairseq2.data.audio import AudioDecoder, WaveformToFbankConverter
from fairseq2.memory import MemoryBlock
from fairseq2.nn.padding import get_seqs_and_padding_mask
from pathlib import Path
from seamless_communication.models.conformer_shaw import load_conformer_shaw_model


audio_wav_path, device, dtype = ...
audio_decoder = AudioDecoder(dtype=torch.float32, device=device)
fbank_converter = WaveformToFbankConverter(
    num_mel_bins=80,
    waveform_scale=2**15,
    channel_last=True,
    standardize=True,
    device=device,
    dtype=dtype,
)
collater = Collater(pad_value=1)

model = load_conformer_shaw_model("conformer_shaw", device=device, dtype=dtype)
model.eval()

with Path(audio_wav_path).open("rb") as fb:
    block = MemoryBlock(fb.read())

decoded_audio = audio_decoder(block)
src = collater(fbank_converter(decoded_audio))["fbank"]
seqs, padding_mask = get_seqs_and_padding_mask(src)

with torch.inference_mode():
  seqs, padding_mask = model.encoder_frontend(seqs, padding_mask)
  seqs, padding_mask = model.encoder(seqs, padding_mask)