data2vec-audio-largeオープンソース音声モデル - 音声認識などのタスクに無料で使用可能

ホーム

Data2vec Audio Large

facebookによって開発

Data2Vec-Audio-Largeは16kHzサンプリング音声データで事前学習された大型モデルで、自己教師あり学習フレームワークを採用し、音声認識などのタスクに適しています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #自己教師あり学習 #音声表現学習 #マルチモーダル統一フレームワーク

ダウンロード数 97

リリース時間 : 4/2/2022

モデル概要

このモデルはFacebook Data2Vecフレームワークの音声実装版で、自己蒸留方式で音声データの潜在表現を学習し、音声認識などのタスクに適用可能です。

モデル特徴

統一された自己教師あり学習フレームワーク

Data2Vecフレームワークを採用し、音声、NLP、コンピュータビジョン分野に同時に適用可能

文脈的潜在表現予測

局所的なターゲットを予測するのではなく、入力全体の情報を含む文脈的潜在表現を予測

16kHz音声サポート

16kHzサンプリングの音声データに特化して最適化

モデル能力

音声特徴抽出

自己教師あり学習

音声認識基盤モデル

使用事例

音声処理

音声認識システム

基盤モデルとして音声認識システム構築に利用

音声認識ベンチマークテストで最適または主流ソリューションを超越

音声特徴抽出

音声の高レベル特徴表現を抽出

🚀 Data2Vec-Audio-Large

FacebookのData2Vecは、16kHzでサンプリングされた音声オーディオで事前学習された大規模モデルです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

注意: このモデルは音声のみで事前学習されているため、トークナイザーがありません。このモデルを音声認識に使用するには、トークナイザーを作成し、ラベル付きのテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。

論文

著者: Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

概要

自己教師付き学習の一般的な考え方はモダリティ間で同じですが、実際のアルゴリズムと目的は、単一のモダリティを念頭に開発されたため、大きく異なります。一般的な自己教師付き学習に近づくために、私たちはdata2vecというフレームワークを提案します。このフレームワークは、音声、自然言語処理、またはコンピュータビジョンのいずれにも同じ学習方法を使用します。核心的なアイデアは、標準的なTransformerアーキテクチャを使用した自己蒸留のセットアップで、入力のマスクされたビューに基づいて、全入力データの潜在表現を予測することです。data2vecは、本質的に局所的な単語、ビジュアルトークン、または人間の音声の単位などのモダリティ固有のターゲットを予測するのではなく、入力全体の情報を含む文脈付けられた潜在表現を予測します。音声認識、画像分類、および自然言語理解の主要なベンチマークでの実験は、新しい最先端技術または主要なアプローチと競合する性能を示しています。

元のモデルは、https://github.com/pytorch/fairseq/tree/main/examples/data2vec で見つけることができます。