モデル選定

低い単語誤り率

# 低い単語誤り率

Breeze ASR 25は、Whisper-large-v2を微調整した高度な自動音声認識モデルで、台湾普通話と普通話 - 英語のコード切り替えシナリオの認識能力を特別に最適化しています。

Safetensors 複数言語対応

MediaTek-Research

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53

このモデルは、AI_LIGHT_DANCE - ONSET-SINGINGデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。

Hubert Base Librispeech Demo Colab

facebook/hubert-large-ls960-ftをファインチューニングした音声認識モデルで、LibriSpeechデータセットでトレーニング済み

Kb Whisper Small

スウェーデン国立図書館が公開したWhisperモデルで、スウェーデン語に最適化されており、50,000時間以上のスウェーデン語音声データでトレーニングされ、OpenAIのオリジナル版を上回る性能

Transformers その他

Kb Whisper Medium

スウェーデン国立図書館が5万時間以上のスウェーデン語音声で訓練したWhisperモデルで、スウェーデン語音声認識タスクで優れた性能を発揮

Transformers その他

Kb Whisper Large

スウェーデン国立図書館が公開したWhisperアーキテクチャに基づくスウェーデン語音声認識モデルで、5万時間以上のトレーニングデータを使用し、単語誤り率を大幅に低減しています。

Transformers その他

German RAG WHISPER LARGE V3 TURBO HESSIAN AI

Whisper Large v3 Turboを基に最適化されたドイツ語音声認識モデル。13時間の精選データセットで微調整され、ドイツ語認識精度が大幅に向上

Transformers ドイツ語

Whisper Baseをファインチューニングしたウズベク語音声認識モデル、Common Voiceデータセットでトレーニング済み

Transformers その他

Voice Clone Large Finetune Final

このモデルはopenai/whisper-large-v3を微調整した音声クローンモデルで、主に音声認識タスクに使用され、評価データセットでの単語誤り率は15.3572です。

Whisper Large V3 Turbo German Ct2

Whisper Large v3をベースとしたドイツ語音声認識モデル、ドイツ語音声処理と認識に最適化

Transformers ドイツ語

Whisper Base Hungarian V1

OpenAI Whisper-baseモデルをファインチューニングしたハンガリー語音声認識モデルで、1200時間のハンガリー語データで訓練され、同類のモデルよりも優れた性能を発揮します

Transformers その他

Whisper Large V3 Turbo Turkish

openai/whisper-large-v3-turboをCommon Voice 17.0データセットでファインチューニングしたトルコ語音声認識モデル

Transformers その他

Whisper Large V3 Turbo German

Whisper Large v3を基にしたドイツ語音声認識のファインチューニングモデルで、ドイツ語音声処理と認識に特化して最適化されています。

Transformers ドイツ語

Wav2vec2 Phoneme

facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、音素認識タスクに特化

Whisper Native Elderly 9 Dutch

OpenAI Whisper Large V2モデルをオランダ語データセットで微調整した音声認識モデル、単語誤り率10.14%

Transformers その他

Whisper Large V3 Ft Cv16 Mn

Common Voice 16.0データセットで微調整されたOpenAI Whisper Large V3モデルに基づく音声認識モデル

Wav2vec2 Bert CV16 En

w2v-bert-2.0をベースに、Common Voice 16.0の英語データセットで微調整された自動音声認識(ASR)モデル

Transformers 英語

OpenAI Whisper-baseモデルをCommon Voice 11.0ロシア語データセットでファインチューニングした音声認識モデル

Transformers その他

Whisper Small Turkish Tr Best

OpenAI Whisper-smallを微調整したトルコ語音声認識モデル、単語誤り率26.34%

Asr Conformer Transformerlm Librispeech

SpeechBrainフレームワークに基づく自動音声認識モデルで、ConformerエンコーダーとTransformerデコーダーを使用し、LibriSpeechデータセットでトレーニングされ、英語音声認識をサポートします。

音声認識英語

Git Base Pokemon

microsoft/git-baseをベースにファインチューニングした画像説明生成モデルで、ポケモン画像データセットでトレーニング

画像生成テキスト

Transformers その他

Whisper Medium Et

約800時間の多様なエストニア語データでファインチューニングされたWhisper-mediumモデルで、汎用音声認識シナリオに適しています

Whisper Large V2 Ko

OpenAI Whisper-large-v2をファインチューニングした韓国語自動音声認識(ASR)モデルで、韓国語データセットで優れた性能を発揮

Transformers 韓国語

Asr Whisper Large V2 Commonvoice Fa

これはwhisper-large-v2アーキテクチャに基づく自動音声認識モデルで、CommonVoiceデータセット上のペルシア語に特化して微調整されています。

音声認識その他

Whisper Large V2 French

openai/whisper-large-v2を基にファインチューニングしたフランス語音声認識モデルで、2200時間以上のフランス語音声データでトレーニングされています

Transformers フランス語

Whisper Hindi Small

OpenAI Whisper-smallをファインチューニングしたヒンディー語音声認識モデルで、複数の公開ASRコーパスでトレーニング済み

音声認識その他

Whisper Tamil Small

OpenAI Whisper-smallを微調整したタミル語自動音声認識モデルで、複数の公開データセットで訓練され、単語誤り率の性能に優れています。

音声認識その他

Whisper Medium Da

OpenAI Whisper Mediumモデルをファインチューニングしたデンマーク語自動音声認識(ASR)モデルで、Common Voice 11とFLEURSデータセットでトレーニング済み

Transformers その他

Whisper Telugu Medium

OpenAI Whisper-mediumをファインチューニングしたテルグ語音声認識モデルで、複数の公開テルグ語ASRデータセットでトレーニング済み

音声認識その他

Whisper Kannada Tiny

openai/whispertinyを微調整したカンナダ語自動音声認識モデルで、複数の公開カンナダ語ASRコーパスでトレーニング済み

音声認識その他

Whisper Large V2 Mix Jp

OpenAI Whisper-large-v2モデルを日本語音声データセットでファインチューニングした自動音声認識(ASR)モデル

Whisper Large V2 Ta

OpenAI Whisper Large-v2モデルをファインチューニングしたタミル語自動音声認識(ASR)モデルで、Common Voice 11.0タミル語テストセットで8.45%の単語誤り率を達成

Transformers その他

Whisper Large V2 Hi V3

OpenAI Whisper Large-v2モデルをファインチューニングしたヒンディー語音声認識モデルで、Common Voice 11.0ヒンディー語テストセットで11.3%の単語誤り率を達成

Transformers その他

Whisper Small Ko Zeroth

Zeroth Koreanデータセットを基に微調整された韓国語自動音声認識モデルで、単語誤り率は6.76%です。

Transformers 韓国語

Whisper Medium Id

openai/whisper-mediumをベースに、インドネシア語データセットで微調整した音声認識モデルで、インドネシア語の認識精度が大幅に向上しました。

Transformers その他

Whisper Medium Jp

openai/whisper-mediumをcommon_voice_11_0データセットでファインチューニングした日本語音声認識モデル

Transformers 日本語

Whisper Large Khmer Asr

OpenAI Whisper Largeモデルをファインチューニングしたクメール語自動音声認識モデル、SLR42データセットでトレーニング済み

Transformers その他

Wav2vec2 Large Ru Golos With Lm

これはfacebook/wav2vec2-large-xlsr-53をベースに微調整されたロシア語音声認識モデルで、Sberdevices Golosデータセットを使用して訓練され、識別精度を向上させるために2-gram言語モデルが統合されています。

Transformers その他

Wav2vec2 2 Bart Large Tedlium

TEDLIUMコーパスで訓練されたシーケンス・ツー・シーケンスの自動音声認識モデルで、Wav2Vec2音声エンコーダとBartテキストデコーダを組み合わせたもの

音声認識英語

Wav2vec2 Base Timit Demo Google Colab

facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase