Whisper-base.kkオープンソース自動音声認識モデル - 無料でデプロイ可能、高精度なカザフ語音声認識

ホーム

Whisper Base.kk

akuzdeuovによって開発

Whisper-baseは低リソースのカザフ語向け自動音声認識(ASR)モデルで、カザフ語音声コーパス2で1,000時間以上の注釈付きデータを用いてファインチューニングされています。

音声認識

Safetensors

その他オープンソースライセンス:Apache-2.0 #カザフ語音声認識 #低リソース最適化 #産業レベルのコーパス

ダウンロード数 43

リリース時間 : 8/14/2024

モデル概要

これはカザフ語専用の音声認識モデルで、Whisperアーキテクチャに基づき、カザフ語の音声からテキストへの変換タスクに最適化されています。

モデル特徴

低リソース言語最適化

カザフ語のような低リソース言語に特化して最適化され、限られたデータでも良好な性能を発揮

産業レベルのコーパスで訓練

1,000時間以上の産業レベルのカザフ語音声コーパス(KSC2)を使用して訓練

長時間音声処理

チャンクアルゴリズムによる任意の長さの音声入力の処理をサポート

モデル能力

カザフ語音声認識

長時間音声の文字起こし

バッチ音声処理

使用事例

音声文字起こし

カザフ語会議議事録

カザフ語の会議録音を自動的に文字記録に変換

テストセットWER 15.36%

メディアコンテンツ字幕生成

カザフ語の動画コンテンツに自動的に字幕を生成

🚀 Whisper

低リソースのカザフ語の自動音声認識（ASR）に特化したWhisper-baseモデルです。このモデルは、1000時間以上のラベル付きデータを持つKazakh Speech Corpus 2 でファインチューニングされ、テストセットで15.36%のWERを達成しました。

🚀 クイックスタート

このモデルはカザフ語の音声認識に特化しており、カザフ語以外の音声認識には使用できません。

✨ 主な機能

低リソースのカザフ語の自動音声認識に特化。
1000時間以上のラベル付きデータでファインチューニング。
テストセットで15.36%のWERを達成。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration
>>> import librosa

>>> # load model and processor
>>> processor = WhisperProcessor.from_pretrained("akuzdeuov/whisper-base.kk")
>>> model = WhisperForConditionalGeneration.from_pretrained("akuzdeuov/whisper-base.kk")

>>> # load your audio
>>> audio, sampling_rate = librosa.load("path_to_audio", sr=16000)
>>> input_features = processor(audio, sampling_rate=sampling_rate, return_tensors="pt").input_features 

>>> # generate token ids
>>> predicted_ids = model.generate(input_features)
>>> # decode token ids to text
>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)

>>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

コンテキストトークンは、skip_special_tokens=Trueを設定することで、文字起こしの先頭から削除できます。

高度な使用法

>>> import torch
>>> from transformers import pipeline

>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> pipe = pipeline(
>>>   "automatic-speech-recognition",
>>>   model="akuzdeuov/whisper-base.kk",
>>>   chunk_length_s=30,
>>>   device=device,
>>> )

>>> prediction = pipe("path_to_audio", batch_size=8)["text"]

Whisperモデルは本来、最大30秒の音声サンプルで動作するように設計されています。しかし、チャンキングアルゴリズムを使用することで、任意の長さの音声サンプルの文字起こしに使用できます。これは、Transformersのpipeline メソッドを通じて可能です。パイプラインをインスタンス化する際にchunk_length_s=30を設定することで、チャンキングが有効になり、バッチ推論で実行できます。