wav2vec2-xls-r-300m-cv7-turkishオープンソース音声認識モデル

ホーム

Wav2vec2 Xls R 300m Cv7 Turkish

mpoyrazによって開発

facebook/wav2vec2-xls-r-300mを基にトルコ語でファインチューニングした自動音声認識モデル

音声認識

Transformers

その他#トルコ語音声認識 #低単語誤り率 #複数データセット訓練

ダウンロード数 685.31k

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語に最適化された自動音声認識(ASR)システムで、XLS-Rアーキテクチャに基づき、Common Voice 7.0とMediaSpeechデータセットでファインチューニングされています。

モデル特徴

高性能トルコ語認識

Common Voice 7テストセットで8.62%のWERと2.26%のCERを達成

複数データセット訓練

Common Voice 7.0とMediaSpeechデータセットを組み合わせて訓練し、モデルの頑健性を向上

N-gram言語モデルサポート

トルコ語ウィキペディアで訓練されたKenLM言語モデルを使用して認識効果を強化

モデル能力

トルコ語音声認識

音声からテキストへの変換

長い音声処理(チャンク処理対応)

使用事例

音声文字起こし

トルコ語音声から文字へ

トルコ語の音声内容をテキストに変換

標準テストセットで92%以上の精度を達成

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントシステムの音声コマンド認識に使用

🚀 wav2vec2-xls-r-300m-cv7-turkish

この自動音声認識（ASR）モデルは、トルコ語に対してfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。このモデルは、トルコ語の音声を高精度に認識するために設計されています。

🚀 クイックスタート

このモデルを使用するには、まず必要なパッケージをインストールし、評価コマンドを実行します。詳細は以下のセクションを参照してください。

✨ 主な機能

トルコ語に特化した自動音声認識モデルです。
複数のデータセットを用いてファインチューニングされており、高精度な認識が可能です。

📦 インストール

評価を実行する前に、unicode_trパッケージをインストールしてください。これはトルコ語のテキスト処理に使用されます。

💻 使用例

基本的な使用法

mozilla-foundation/common_voice_7_0のtestスプリットで評価するには、以下のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test

高度な使用法

speech-recognition-community-v2/dev_dataで評価するには、以下のコマンドを実行します。

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 ドキュメント

モデルの説明

このASRモデルは、トルコ語に対してfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。

学習と評価データ

以下のデータセットがファインチューニングに使用されました。

Common Voice 7.0 TR すべてのvalidatedスプリット（testスプリットを除く）が学習に使用されました。
MediaSpeech

学習手順

上記の両方のデータセットをサポートするために、カスタムの前処理とロード手順が実行され、wav2vec2-turkishリポジトリがその目的で使用されました。

学習ハイパーパラメータ

以下のハイパーパラメータがファインチューニングに使用されました。

learning_rate 2e-4
num_train_epochs 10
warmup_steps 500
freeze_feature_extractor
mask_time_prob 0.1
mask_feature_prob 0.05
feat_proj_dropout 0.05
attention_dropout 0.05
final_dropout 0.05
activation_dropout 0.05
per_device_train_batch_size 8
per_device_eval_batch_size 8
gradient_accumulation_steps 8

フレームワークのバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.1
Datasets 1.17.0
Tokenizers 0.10.3

言語モデル

N-gram言語モデルは、KenLMを使用してトルコ語のウィキペディア記事で学習され、ngram-lm-wikiリポジトリがarpa LMを生成してバイナリ形式に変換するために使用されました。

評価結果

データセット	WER	CER
Common Voice 7 TR test split	8.62	2.26
Speech Recognition Community dev data	30.87	10.69

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご