wav2vec2-large-romance-voxpopuli-v2オープンソース音声認識モデル

ホーム

Wav2vec2 Large Romance Voxpopuli V2

facebookによって開発

FacebookのWav2Vec2大型モデル、ロマンス語族のVoxPopuliコーパス101.5時間の未ラベルデータのみで事前学習され、音声認識タスクに適しています。

音声認識

Transformers

#ロマンス語族音声認識 #教師なし事前学習 #16kHz音声処理

ダウンロード数 26

リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzサンプリング音声オーディオで事前学習された自動音声認識モデルで、トークナイザーとラベル付きデータによる微調整が必要です。

モデル特徴

多言語サポート

ロマンス語族の音声認識に特化し、複数の関連言語をサポートします。

効率的な事前学習

わずか101.5時間の未ラベルデータで事前学習され、データ効率が高いです。

16kHz音声サポート

16kHzサンプリングの音声オーディオに最適化され、認識品質を保証します。

モデル能力

音声特徴抽出

自動音声認識

使用事例

音声技術

多言語音声認識システム

ロマンス語族をサポートする音声認識システムの構築

ラベル付きデータによる微調整が必要です

音声データ分析

ロマンス語族音声データの特徴抽出と分析に使用

🚀 Wav2Vec2-large-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2の大規模モデルで、VoxPopuliコーパスの101.5の未ラベルデータを使用して、ロマンス言語でのみ事前学習されています。モデルは16kHzでサンプリングされた音声オーディオで事前学習されています。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルはオーディオのみで事前学習されているため、トークナイザーがありません。音声認識にこのモデルを使用するには、トークナイザーを作成し、モデルをロマンス言語のラベル付きテキストデータでファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。