wav2vec-osrオープンソース音声テキスト変換モデル - 無料で利用可能で音声の精度の高い認識と変換を実現

Home

Wav2vec Osr

Developed by iamtarun

The Sound Of AIオープンソース研究グループの音声からテキストへのモジュール用にファインチューニングされたFacebookのwav2vec2モデル

音声認識

Transformers

EnglishOpen Source License:Apache-2.0 #音声からテキストへ #低リソースファインチューニング #16kHz対応

Downloads 22

Release Time : 3/2/2022

Model Overview

wav2vec2ベースの音声認識モデルで、音声をテキストに変換することをサポートします。オリジナルモデルはLibrispeechの960時間の音声データで事前学習とファインチューニングが行われ、16kHzサンプリングの音声入力に適しています。

Model Features

効率的な音声認識

限られたラベル付きデータでも高品質な音声認識を実現

事前学習とファインチューニングの組み合わせ

まず大量のラベルなし音声データで事前学習し、その後ラベル付きデータでファインチューニング

対照学習

潜在空間マスキングと対照タスクを使用して音声表現を学習

Model Capabilities

音声からテキストへ

英語音声認識

Use Cases

音声文字起こし

会議議事録

会議の録音を自動的に文字起こし

音声メモ

音声メモを検索可能なテキストに変換

支援技術

聴覚支援

聴覚障害者向けにリアルタイムで音声を文字に変換するサービスを提供

🚀 Wav2Vec-OSR

The Sound Of AIオープンソース研究グループの音声文字変換モジュール用に、facebookのwav2vec2モデルをファインチューニングしました。

元のベースモデルは、16kHzでサンプリングされた960時間のLibrispeech音声データで事前学習とファインチューニングが行われています。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは音声を文字に変換するために使用できます。使用する際には、入力音声が16kHzでサンプリングされている必要があります。

✨ 主な機能

音声を文字に変換する機能を提供します。
facebookのwav2vec2モデルをファインチューニングしているため、高精度な変換が期待できます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略します。

💻 使用例

基本的な使用法

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from datasets import load_dataset
import soundfile as sf
import torch

# load tokenizer, data_processor and model
tokenizer = Wav2Vec2CTCTokenizer.from_pretrained("iamtarun/wav2vec-osr")
processor = Wav2Vec2Processor.from_pretrained("iamtarun/wav2vec-osr")
model = Wav2Vec2ForCTC.from_pretrained("iamtarun/wav2vec-osr")

model = model.eval()

device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

# define function to read in sound file
def map_to_array(batch):
   speech, _ = sf.read(batch["file"])
   batch["speech"] = speech
   return batch

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
ds = ds.map(map_to_array)

# speech data is passed to data processor whose output is then fed to model
input_values = processor(ds["speech"][:2], sampling_rate=rate, padding="longest", return_tensors="pt").input_values.to(device)

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim =-1)
transcriptions = tokenizer.decode(predicted_ids[0])
print(transcriptions)

📚 ドキュメント

論文

著者: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

概要

本研究では、音声オーディオのみから強力な表現を学習し、その後に文字起こしされた音声でファインチューニングすることで、概念的により単純でありながら、最良の半教師あり学習手法を上回ることが初めて示されました。wav2vec 2.0は、潜在空間で音声入力をマスクし、共同で学習される潜在表現の量子化に基づいて定義された対照的なタスクを解きます。Librispeechのすべてのラベル付きデータを使用した実験では、クリーン/その他のテストセットでそれぞれ1.8/3.3のWER（Word Error Rate）が達成されました。ラベル付きデータの量を1時間に減らした場合、wav2vec 2.0は100時間のサブセットで以前の最先端技術を上回り、ラベル付きデータの使用量は100分の1になります。たった10分のラベル付きデータと53,000時間のラベルなしデータでの事前学習でも、4.8/8.2のWERが達成されます。これは、限られた量のラベル付きデータでの音声認識の実現可能性を示しています。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で見つけることができます。また、Hugging Faceの公開モデルリポジトリこちらでも確認できます。