wav2vec2-base-es-voxpopuli-v2オープンソース音声モデル - スペイン語の音声認識に無料で利用可能

ホーム

Wav2vec2 Base Es Voxpopuli V2

facebookによって開発

Wav2Vec2の基礎モデルで、スペイン語の21.4kの無ラベルデータのみで事前学習され、音声認識タスクに適しています。

音声認識

Transformers

スペイン語#スペイン語音声認識 #教師なし事前学習 #16kHzオーディオ処理

ダウンロード数 46

リリース時間 : 3/2/2022

モデル概要

このモデルはFacebookのWav2Vec2アーキテクチャに基づいて、スペイン語の音声データを対象に事前学習された自動音声認識モデルです。

モデル特徴

スペイン語専用

スペイン語の音声データを対象に事前学習され、スペイン語の音声認識性能が最適化されています。

Wav2Vec2アーキテクチャに基づく

先進的なWav2Vec2アーキテクチャを採用し、生のオーディオから音声構造を学習することができます。

16kHzサンプリングレート対応

モデルは16kHzでサンプリングされた音声オーディオで事前学習されているため、使用時には入力オーディオのサンプリングレートを一致させる必要があります。

モデル能力

音声認識

スペイン語音声処理

使用事例

音声文字変換

スペイン語音声文字起こし

スペイン語の音声を文字内容に変換します

音声アシスタント

スペイン語音声コマンド認識

スペイン語の音声アシスタントの開発に使用します

🚀 Wav2Vec2-base-VoxPopuli-V2

このモデルは、FacebookのWav2Vec2のベースモデルで、VoxPopuliコーパスの21.4kのラベルなしデータを用いて、スペイン語でのみ事前学習されています。

このモデルは、16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルはオーディオのみで事前学習されているため、トークナイザーを持っていません。このモデルを音声認識に使用するには、トークナイザーを作成し、スペイン語のラベル付きテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法について詳しくは、このブログを参照してください。