wav2vec2-large-slavic-voxpopuli-v2 オープンソース音声モデル - スラブ語派の音声アプリケーション処理をサポート

ホーム

Wav2vec2 Large Slavic Voxpopuli V2

facebookによって開発

FacebookのWav2Vec2大型モデルで、スラブ語系のVoxPopuliコーパスにおいて88.99999999999999時間の未ラベルデータ事前学習を行っています。

音声認識

Transformers

#スラブ語音声認識 #教師なし事前学習 #16kHz音声処理

ダウンロード数 26

リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec2アーキテクチャに基づく音声処理モデルで、スラブ語系に特化して事前学習されており、音声認識タスクに適しています。

モデル特徴

スラブ語系最適化

スラブ語系に特化した事前学習を行い、この語系の音声認識性能を最適化しています。

大規模事前学習

VoxPopuliコーパスに基づき88.99999999999999時間の未ラベルデータ事前学習を実施。

16kHz音声サポート

モデルは16kHzサンプリングの音声データで事前学習されており、使用時には入力音声のサンプリングレートを一致させる必要があります。

モデル能力

音声認識

スラブ語系音声処理

使用事例

音声認識

スラブ語系音声テキスト変換

スラブ語系の音声をテキストに変換し、音声アシスタントや字幕生成などのシナリオに適用可能です。

プロパティ	詳細
モデルタイプ	Wav2Vec2-large-VoxPopuli-V2
学習データ	VoxPopuliコーパスの88.99999999999999の未ラベルデータ
言語	スラブ語
サンプリングレート	16kHz
ライセンス	CC BY-NC 4.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Slavic Voxpopuli V2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Wav2Vec2-large-VoxPopuli-V2

🚀 クイックスタート

📚 ドキュメント

論文情報

関連情報

📄 ライセンス