モデル選定

低単語誤り率

# 低単語誤り率

Phi 4 Mm Inst Asr Singlish

シンガポール英語に最適化されたマルチモーダル音声認識モデルで、マイクロソフトのPhi-4マルチモーダル命令モデルをファインチューニングし、シンガポール英語の独特な音声特徴の認識能力を大幅に向上させました。

音声生成テキスト

Transformers 複数言語対応

Wav2vec2 Base Librispeech Demo Colab

このモデルはfacebook/wav2vec2-baseをLibriSpeechデータセットでファインチューニングした音声認識モデルで、評価セットで0.3174の単語誤り率を達成しました。

Whisper Small Vi

openai/whisper-smallをベースにベトナム語音声データ向けにファインチューニングした自動音声認識モデルで、ベトナム語の文字起こし精度と頑健性を向上

Transformers その他

Whisper Large V3 French Distil Dec16 Ct2

これはWhisper Large V3のフランス語蒸留バージョンで、フランス語自動音声認識に最適化されており、ctranslate2による効率的な推論を実現しています。

音声認識フランス語

W2v Bert 2.0 Naijavoices Clearglobal Hausa 500hr V0

facebook/w2v-bert-2.0をファインチューニングしたハウサ語音声認識モデルで、500時間のハウサ語データで訓練され、単語誤り率7.47%

Whisper Persian Turbooo

OpenAI Whisper-large-v3-turboを最適化したペルシャ語自動音声認識モデル、医療分野のアプリケーションをサポート

Transformers その他

Whisper Base Vi

openai/whisper-baseモデルを100時間のベトナム語音声データでファインチューニングした音声認識モデルで、ベトナム語文字起こしの精度を向上

Transformers その他

Whisper Large V3 Persian Common Voice 17

Whisper Large v3をベースにファインチューニングしたペルシア語自動音声認識モデルで、Common Voice 17データセットで訓練されており、ペルシア語の認識精度が大幅に向上しています。

Transformers その他

Whisper Large V3 Vaani Hindi

OpenAIのWhisper-Large-V3モデルをファインチューニングしたヒンディー語音声認識モデルで、約718時間のヒンディー語音声データで訓練されています

Indian Accent English Whisper Finetuned Epoch 15

OpenAI Whisper-large-v3-turboをファインチューニングしたインド英語アクセント音声認識モデルで、インド英語アクセントデータセットで7.99%の単語誤り率を達成

Transformers 英語

Wav2vec2 Large Xlsr 53 Hungarian

facebook/wav2vec2-large-xlsr-53を基に、ハンガリー語Common Voiceデータセットでファインチューニングした自動音声認識モデル

Transformers その他

Whisper Small Fr

これはフランス語データセットでファインチューニングされたWhisper-small音声認識モデルで、単語誤り率がベースラインモデルに比べて6.793ポイント低下しています。

Transformers フランス語

Lite Whisper Large V3 Turbo Acc

Lite-Whisper は LiteASR 技術で圧縮された OpenAI Whisper の軽量版で、高い精度を維持しながらモデルサイズを縮小しています。

efficient-speech

OpenAI Whisper Mediumモデルをファインチューニングしたウズベク語自動音声認識モデル

Transformers その他

Whisper Finetuned

Whisper-large-v3-turboを微調整したインド英語アクセント音声認識モデル、単語誤り率4.39%

Transformers 英語

Quran Whisper Base Fine Tune

このモデルは、openai/whisper-baseをquran-ayat-speech-to-textデータセットでファインチューニングしたアラビア語音声認識モデルで、コーラン経文の音声から文字への変換タスクに特化しています。

Transformers アラビア語

Whisper Large V3 Turbo STT Zeroth KO V2

Whisper Large v3 Turboを基に最適化された韓国語自動音声認識モデルで、高精度かつタイムスタンプ付きの書き起こし結果を提供

Transformers 韓国語

Chunkformer Large Vie

ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識モデルで、約3000時間のベトナム語公開音声データで微調整され、優れた性能を発揮します。

音声認識その他

Whisper Finetuned Amharic

openai/whisper-smallをベースにファインチューニングしたアムハラ語音声認識モデルで、評価データセットにおける単語誤り率は2.0538%

Wav2vec2 Large Xls R 300m Ru

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voice_17_0データセットでファインチューニングしたロシア語自動音声認識(ASR)モデルで、単語誤り率(WER)は0.195です。

Whisper Small Tajik

OpenAI Whisper-smallをファインチューニングしたタジク語自動音声認識モデルで、Google Fleursデータセットでトレーニングされ、単語誤り率24.26%です。

Transformers その他

Audiox South V1

AudioXはJivi AIが開発した多言語自動音声認識モデルで、特にインド南部の言語に最適化されており、タミル語、テルグ語、カンナダ語、マラヤーラム語をサポートしています。

音声認識その他

Whisper Large V3 Turbo Shqip

OpenAI Whisper Large v3 Turboをアルバニア語向けに最適化した音声認識モデルで、標準アルバニア語とゲグ方言をサポート

Transformers その他

Whisper Small For Quran

OpenAI Whisper-smallを微調整したコーラン音声認識モデルで、アラビア語コーラン音声用に設計されています

Transformers アラビア語

Whisper Khanacademy Large V3 Turbo Tr

OpenAI Whisper-large-v3-turboモデルをトルコ語のカーンアカデミーデータセットで微調整した自動音声認識(ASR)モデル

Transformers その他

Distil Large V3.5

Distil-WhisperはOpenAI Whisper-Large-v3の知識蒸留バージョンで、大規模な擬似ラベル訓練により高効率な音声認識を実現。

Transformers 英語

Whisper Tiny German 1224

Whisperアーキテクチャを基に最適化されたドイツ語音声認識モデル、パラメータ数3900万、効率的なドイツ語音声転写をサポート

Transformers ドイツ語

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

OpenAI Whisper-large-v3-turboをファインチューニングした繁体字中国語（台湾）自動音声認識モデル

Transformers 中国語

Pathumma Whisper Th Large V3

Pathumma Whisper Large V3 はOpenAI Whisperアーキテクチャに基づくタイ語自動音声認識モデルで、タイ語と英語の音声文字起こしタスクをサポートします。

Transformers 複数言語対応

Whisper Large V3 Lv Late Cv19

whisper-large-v3をファインチューニングしたラトビア語自動音声認識モデルで、AiLab.lvによって訓練され、ラトビア語音声からテキストへの変換タスクをサポートします。

音声認識その他

Whisper Large V3 Turbo Es

Whisper-large-v3-turboをファインチューニングしたスペイン語音声認識モデル。Common Voice 17.0スペイン語データセットで単語誤り率を5.34%まで低減

Transformers スペイン語

Whisper Large V3 Turbo Arabic

transformersライブラリに基づき、common_voice_11_0データセットでopenai/whisper-large-v3-turboを微調整したバージョンで、アラビア語音声認識に特化して最適化されています。

Finetuned Whisper Mr

simran14/mr-model-hを基に、Common Voice 17.0マラーティー語データセットでファインチューニングされたWhisper小型音声認識モデル

Transformers その他

Whisper Small Kurdish Sorani 10

openai/whisper-smallをファインチューニングしたクルド語ソラニ方言音声認識モデル

Monsoon Whisper Medium Gigaspeech2

Monsoon-Whisper-Medium-GigaSpeech2は、タイ語自動音声認識（ASR）モデルで、Whisper-Mediumを基にGigaSpeech2データセットで微調整されており、実世界の音声認識に適しています。

W2V2 BERT Withlm Malayalam

facebook/w2v-bert-2.0をベースにファインチューニングしたマラヤーラム語自動音声認識モデルで、複数のマラヤーラム語データセットで訓練され、KENLMライブラリで訓練された3-gram言語モデルを使用しています。

Transformers その他

Faster Whisper Large V3 French Distil Dec16

Whisper-Large-V3のフランス語蒸留バージョン、デコーダ層数を減らすことで推論効率を最適化しつつ良好な性能を維持

Transformers フランス語

Whisper Large V3 Az

このモデルはOpenAIのWhisper Large v3をアゼルバイジャン語のCommon Voice 17.0データセットでファインチューニングした自動音声認識(ASR)モデルで、1.195%の単語誤り率(WER)を達成しました。

Transformers その他

Whisper Large V2 Atcosim Corpus

このモデルはopenai/whisper-large-v2をファインチューニングした音声認識モデルで、特定領域データセットで4.6858の単語誤り率を達成しました。

Whisper Large V3 Russian

OpenAI Whisper-large-v3をファインチューニングしたロシア語音声認識モデルで、ロシア語認識性能を最適化

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase