viwav2vec2-base-1.5kオープンソースベトナム語音声モデル - 高精度なベトナム語音声認識を支援

ホーム

Viwav2vec2 Base 1.5k

dragonSwingによって開発

このモデルは1.5千時間のベトナム語音声データで事前学習されており、ベトナム語音声認識タスクに適しています。使用前に微調整が必要です。

音声認識

Transformers

その他#ベトナム語音声認識 #1.5千時間の事前学習 #16kHzサンプリング

ダウンロード数 38

リリース時間 : 5/3/2022

モデル概要

Wav2Vec2アーキテクチャに基づくベトナム語音声事前学習モデルで、1.5千時間の朗読と放送音声データで訓練され、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

大規模ベトナム語事前学習

1.5千時間のベトナム語音声データを使用した事前学習で、朗読と放送音声をカバー

16kHzサンプリング対応

16kHzサンプリングの音声データに最適化されており、入力音声のサンプリングレートが一致する必要があります

微調整が必要

モデルは下流タスク（ベトナム語ASRなど）で微調整することで最高の効果を発揮します

モデル能力

ベトナム語音声特徴抽出

音声表現学習

使用事例

音声技術

ベトナム語音声認識システム

モデルを微調整してベトナム語ASRシステムを構築

音声分析

ベトナム語音声の特徴分析と表現学習に使用

🚀 Wav2Vec2ベースモデル（1500時間のベトナム語音声で学習）

このベースモデルは、1500時間の朗読と放送音声を含むベトナム語音声コーパスから抽出された16kHzサンプリングの音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。このモデルは、ベトナム語の自動音声認識などの下流タスクでファインチューニングする必要があります。

🚀 クイックスタート

このベースモデルは、16kHzでサンプリングされたベトナム語の音声オーディオから事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。また、このモデルは下流タスクでファインチューニングする必要があります。

⚠️ 重要提示

このモデルはオーディオのみで事前学習されているため、トークナイザーがありません。音声認識でこのモデルを使用するには、トークナイザーを作成し、ラベル付きのテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。

💡 使用建议

モデルの使用に際しては、入力音声が16kHzでサンプリングされていることを必ず確認してください。

💻 使用例

基本的な使用法

import torch
from transformers import Wav2Vec2Model

model = Wav2Vec2Model.from_pretrained("dragonSwing/viwav2vec2-base-1.5k")

# Sanity check
inputs = torch.rand([1, 16000])
outputs = model(inputs)