whisper-large-v3-lv-late-cv19オープンソースモデル - ラトビア語の音声を高精度でテキストに変換することをサポート

ホーム

Whisper Large V3 Lv Late Cv19

AiLab-IMCS-ULによって開発

whisper-large-v3をファインチューニングしたラトビア語自動音声認識モデルで、AiLab.lvによって訓練され、ラトビア語音声からテキストへの変換タスクをサポートします。

音声認識

Safetensors

その他オープンソースライセンス:Apache-2.0 #ラトビア語音声認識 #マルチドメイン適応 #低単語誤り率

ダウンロード数 162

リリース時間 : 10/15/2024

モデル概要

このモデルはOpenAIのwhisper-large-v3アーキテクチャをファインチューニングしたラトビア語自動音声認識(ASR)モデルで、ラトビア語に特化して最適化されており、ラトビア語の音声を正確にテキストに変換できます。

モデル特徴

複数データセットでの訓練

Common Voice 19.0とLATE-Media 2.0の2つのデータセットを組み合わせて訓練され、総訓練時間は282.4時間です。

複数量子化バージョン

whisper.cpp用のGGML形式4ビット、5ビット、8ビット量子化バージョン、およびCTranslate2用の8ビット量子化バージョンを提供します。

低単語誤り率

Common Voice 19.0テストセットで3.2%の単語誤り率(WER)を達成し、優れた性能を示しています。

モデル能力

ラトビア語音声認識

音声からテキストへの変換

音声文字起こし

使用事例

音声文字起こし

放送内容の文字起こし

ラトビア語の放送内容を自動的にテキストに変換

LATE-Mediaテストセットで12.8%の単語誤り率を達成

汎用音声文字起こし

日常的なラトビア語音声の文字起こし

Common Voiceテストセットで3.2%の単語誤り率を達成

🚀 汎用ラトビア語自動音声認識モデル

これは、whisper-large-v3 をラトビア語用にファインチューニングしたモデルです。AiLab.lv によって、2つの汎用音声データセット、つまり Common Voice 19.0 のラトビア語部分と、最新版のラトビア語放送データセット LATE-Media を使用して学習されました。

このバージョンのモデルは、以前の whisper-large-v3-lv-late-cv17 モデルに取って代わります。

また、whisper.cpp で使用するためのGGML形式の4ビット、5ビット、8ビット量子化バージョンのモデルと、CTranslate2 で使用するための8ビット量子化バージョンのモデルも提供しています。

📚 ドキュメント

学習

ファインチューニングは、Hugging Face Transformersライブラリを使用し、修正された seq2seqスクリプトを用いて行われました。

学習データ	時間（時間）
ラトビア語Common Voice 19.0トレインセット（VW分割）	212.6
LATE-Media 2.0トレインセット	69.8
合計	282.4

評価

テストデータ	単語誤り率（WER）	文字誤り率（CER）
ラトビア語Common Voice 19.0テストセット（VW） - フォーマット済み	4.8	1.6
ラトビア語Common Voice 19.0テストセット（VW） - 正規化済み	3.2	1.0
LATE-Media 1.0テストセット - フォーマット済み	19.2	7.6
LATE-Media 1.0テストセット - 正規化済み	12.8	5.3

ラトビア語Common Voice 19.0テストセットはこちらで入手できます。 LATE-Media 1.0テストセットはこちらで入手できます。

引用

このモデルを研究で使用する場合は、以下の論文を引用してください。

@inproceedings{dargis-etal-2024-balsutalka-lv,
  author = {Dargis, Roberts and Znotins, Arturs and Auzina, Ilze and Saulite, Baiba and Reinsone, Sanita and Dejus, Raivis and Klavinska, Antra and Gruzitis, Normunds},
  title = {{BalsuTalka.lv - Boosting the Common Voice Corpus for Low-Resource Languages}},
  booktitle = {Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)},
  publisher = {ELRA and ICCL},
  year = {2024},
  pages = {2080--2085},
  url = {https://aclanthology.org/2024.lrec-main.187}
}