data2vec-audio-large-10mオープンソースオーディオ大規模モデル - 音声タスクに適合し、無料で音声処理を体験

Data2vec Audio Large 10m

facebookによって開発

Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibrispeechの10分データで事前学習とファインチューニングされており、16kHzサンプリングの音声オーディオに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #自己教師あり音声認識 #マルチモーダル統一フレームワーク #16kHzオーディオ処理

ダウンロード数 19

リリース時間 : 4/2/2022

モデル概要

Data2Vec-Audio-Large-10mは自己教師あり学習に基づく音声処理モデルで、主に音声認識タスクに使用されます。統一フレームワークで異なるモダリティのデータを処理し、完全な入力データの潜在表現を予測することで効率的な学習を実現します。

モデル特徴

統一された自己教師あり学習フレームワーク

音声、自然言語処理、コンピュータビジョンタスクを同じ学習方法で処理し、クロスモーダルな統一学習を実現。

コンテキスト依存の潜在表現予測

局所的な性質の予測とは異なり、入力全体の情報を含むコンテキスト依存の潜在表現を予測します。

高性能

音声認識、画像分類、自然言語理解などの主要ベンチマークで最適または競争力のあるパフォーマンスを達成。

モデル能力

音声認識

オーディオ特徴抽出

使用事例

音声処理

音声からテキストへ

音声オーディオをテキスト内容に変換

高精度な音声認識結果

🚀 Data2Vec-Audio-Large-10m

FacebookのData2Vec は、16kHzでサンプリングされた音声オーディオのLibrispeechの10分間のデータで事前学習および微調整された大規模モデルです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

論文

著者: Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

概要

自己教師付き学習の一般的なアイデアはモダリティを問わず同じですが、実際のアルゴリズムと目的は、単一のモダリティを念頭に開発されたため大きく異なります。一般的な自己教師付き学習に近づくために、私たちは音声、自然言語処理、コンピュータビジョンのいずれにも同じ学習方法を使用するdata2vecというフレームワークを提案します。核心的なアイデアは、標準的なTransformerアーキテクチャを使用した自己蒸留のセットアップで、入力のマスクされたビューに基づいて全入力データの潜在表現を予測することです。本質的に局所的な単語、視覚トークン、または人間の音声の単位などのモダリティ固有のターゲットを予測する代わりに、data2vecは入力全体の情報を含む文脈化された潜在表現を予測します。音声認識、画像分類、および自然言語理解の主要なベンチマークでの実験は、新しい最先端技術または主要なアプローチに対する競争力のあるパフォーマンスを示しています。

元のモデルは https://github.com/pytorch/fairseq/tree/main/examples/data2vec で見つけることができます。

🚀 クイックスタート

このモデルは、音声ファイルの文字起こしに使用できます。以下に使用方法を示します。

✨ 主な機能

音声認識に特化した事前学習済みモデルです。
16kHzの音声データに最適化されています。

📦 インストール

このモデルを使用するには、transformers と datasets ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers datasets torch

💻 使用例

基本的な使用法

 from transformers import Wav2Vec2Processor, Data2VecForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-large-10m")
 model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-large-10m")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)