wav2vec2-large-xls-r-300m-bashkir-cv7_optオープンソース自動音声認識モデル

ホーム

Wav2vec2 Large Xls R 300m Bashkir Cv7 Opt

AigizKによって開発

これはFacebookのwav2vec2 - xls - r - 300mモデルをバシキール語のCommon Voice 7データセットで微調整した自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #バシキール語音声認識 #低CER高精度 #Common Voiceの最適化

ダウンロード数 102

リリース時間 : 3/2/2022

モデル概要

このモデルはバシキール語の自動音声認識タスクに特化しており、Common Voice 7データセットで優れた性能を発揮します。

モデル特徴

高精度音声認識

バシキール語のテストセットで4.44%の単語誤り率(WER)と1.05%の文字誤り率(CER)を達成しました。

大規模事前学習モデルに基づく

Facebookのwav2vec2 - xls - r - 300mモデルを微調整しており、強力な音声特徴抽出能力を持っています。

言語モデルの最適化

言語モデルの統合をサポートし、認識精度を大幅に向上させました。

モデル能力

バシキール語音声認識

音声をテキストに変換

多言語音声処理

使用事例

音声文字起こし

バシキール語音声文字起こし

バシキール語の音声をテキストに変換します。

WER 4.44%, CER 1.05%

音声アシスタント

バシキール語音声アシスタント

バシキール語の音声対話をサポートします。

🚀 wav2vec2-large-xls-r-300m-bashkir-cv7_opt

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - BAデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたものです。評価セットでは以下の結果を達成しています。

訓練損失: 0.268400
検証損失: 0.088252
LMなしのWER: 0.085588
LMありのWER: 0.04440795062008041
LMありのCER: 0.010491234992390509

✨ 主な機能

自動音声認識タスクに対応しています。
特定の文字置換ルールを用いて文字数を削減しています。

📦 インストール

原文書にインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの説明

このモデルは、このjupiterノートブックを用いて訓練されました。

想定用途と制限事項

文字数を削減するために、以下の文字が置換または削除されています。

'я' -> 'йа'
'ю' -> 'йу'
'ё' -> 'йо'
'е' -> 'йэ'（最初の文字の場合）
'е' -> 'э'（それ以外の場合）
'ъ' -> 削除
'ь' -> 削除

したがって、正しいテキストを取得するには、逆変換を行い、言語モデルを使用する必要があります。

訓練と評価データ

詳細な情報は必要です。

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率: 0.0001
訓練バッチサイズ: 32
評価バッチサイズ: 32
シード: 42
勾配累積ステップ: 2
総訓練バッチサイズ: 64
オプティマイザ: Adam（ベータ=(0.9,0.999)、イプシロン=1e-08）
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ: 300
エポック数: 50
混合精度訓練: Native AMP

フレームワークバージョン

Transformers 4.16.1
Pytorch 1.10.0+cu113
Datasets 1.18.2
Tokenizers 0.10.3

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご