viwav2vec2-base-100hオープンソース音声モデル - ベトナム語データに基づく事前学習、下流タスクの微調整を支援

ホーム

Viwav2vec2 Base 100h

dragonSwingによって開発

VLSPデータセットの100時間のラベルなしベトナム語音声データで事前学習されたWav2Vec2基本モデルで、下流タスクで微調整が必要です。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ベトナム語音声認識 #16kHzオーディオ対応 #教師なし事前学習

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

これはWav2Vec2アーキテクチャに基づくベトナム語音声事前学習モデルで、16kHzサンプリングレートの音声データで訓練されており、自動音声認識などの下流タスクに適しています。

モデル特徴

ベトナム語音声事前学習

ベトナム語音声データに特化した事前学習で、ベトナム語音声処理タスクに適しています。

16kHzサンプリング対応

モデルは16kHzサンプリングレートの音声データで訓練されており、使用時には入力データのサンプリングレートを一致させる必要があります。

Wav2Vec2アーキテクチャ採用

Facebookが提案したWav2Vec2アーキテクチャを採用しており、生の音声から音声構造を学習できます。

モデル能力

音声特徴抽出

ベトナム語音声認識

使用事例

音声技術

ベトナム語自動音声認識

このモデルを微調整してベトナム語音声からテキストへの変換機能を実現

Property	Details
Model Type	Wav2Vec2-Base-Pretrain-Vietnamese
Training Data	VLSPデータセットの100時間分のベトナム語の無ラベルデータ

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Viwav2vec2 Base 100h

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Wav2Vec2-Base-Pretrain-Vietnamese

🚀 クイックスタート

モデル情報

注意事項

関連リンク

💻 使用例

基本的な使用法

📄 ライセンス