モデル選定

広東語音声認識

# 広東語音声認識

Whisper Large V3 Cantonese

Whisper v3を微調整した広東語自動音声認識モデル、Common Voice 17データセットで訓練

Transformers その他

Distil Whisper Small Cantonese

これはWhisper Smallをベースにした広東語音声認識蒸留モデルで、Common Voice 16.0で9.7のCER（句読点なし）を達成しました。

Transformers 中国語

Whisper Large V2 Cantonese

OpenAI Whisper Large V2モデルを微調整した広東語自動音声認識(ASR)モデルで、Common Voice 11.0広東語データセットで訓練され、文字誤り率(CER)は6.21%です。

Transformers その他

Whisper Large V2 Cantonese

OpenAI Whisper Large V2を広東語データセットでファインチューニングした自動音声認識モデルで、テストセットで6.7274%の文字誤り率を達成

Transformers その他

Whisper Small Cantonese

OpenAI Whisper-smallをファインチューニングした広東語音声認識モデル、Common Voice 16.0テストセットでCER7.93を達成

Transformers 複数言語対応

Wav2vec2 Large Xlsr 53 Cantonese

facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voiceコーパス8.0版で広東語にファインチューニングした音声認識モデル

Transformers その他

Wav2vec2 Large Xlsr Cantonese

Facebookのwav2vec2-large-xlsr-53モデルをファインチューニングした広東語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

音声認識その他

Wav2vec2 Large Xls R 300m Cantonese

これはfacebook/wav2vec2-xls-r-300mモデルを広東語(香港)データセットでファインチューニングした自動音声認識(ASR)モデルで、広東語音声認識タスク専用に設計されています。

Transformers 中国語

Wav2vec2 Xls R 300m Zh HK V2

XLS-Rアーキテクチャに基づく広東語自動音声認識モデル、Common Voice広東語データセットでファインチューニング

Wav2vec2 Large Xlsr 53 Hk

facebook/wav2vec2-large-xlsr-53を広東語（Common Voiceデータセット使用）でファインチューニングした音声認識モデル

Wav2vec2 Xls R 300m Zh HK Lm V2

XLS-Rアーキテクチャに基づく自動音声認識モデルで、広東語(zh-HK)向けに最適化され、Common Voiceデータセットで微調整され、5-gram言語モデルが追加されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase