モデル選定

リアルタイム文字起こし

# リアルタイム文字起こし

Whisper Small Vi

openai/whisper-smallをベースにベトナム語音声データ向けにファインチューニングした自動音声認識モデルで、ベトナム語の文字起こし精度と頑健性を向上

Transformers その他

Faster Distil Whisper Large V3.5

Distil-WhisperはWhisperモデルの蒸留版で、自動音声認識(ASR)タスク向けに最適化され、より高速な推論を提供します。

音声認識英語

Faster Distil Whisper Large V3.5

Distil-Whisper large-v3.5を変換したCTranslate2フォーマットモデルで、効率的な音声認識に使用

音声認識英語

Whisper Large V3 Turbo Gguf

Whisper large-v3-turboはWhisper large-v3を基にしたプルーニングと微調整バージョンで、デコード層数を32から4に削減し、速度が大幅に向上しましたが、品質はわずかに低下しています。

音声認識複数言語対応

Whisper Base Vi

openai/whisper-baseモデルを100時間のベトナム語音声データでファインチューニングした音声認識モデルで、ベトナム語文字起こしの精度を向上

Transformers その他

Distil Large V3.5 Ct2

Distil-WhisperはWhisperモデルの蒸留版で、大規模な擬似ラベル技術により高効率な音声認識を実現

音声認識英語

Whisper Small Sinhala

OpenAI Whisper-smallをファインチューニングしたシンハラ語音声認識モデル

Transformers その他

Lingalingeswaran

Moonshine Base ONNX

MoonshineベースモデルのONNX形式自動音声認識モデル、効率的な推論をサポート

Moonshine Tiny ONNX

Moonshine Tinyは軽量な自動音声認識(ASR)モデルで、組み込みデバイスやエッジコンピューティングシナリオに適しています。

Whisper Large V3 Distil Multi4 V0.2

これは多言語蒸留版のWhisperモデルで、2つのデコーダー層を持ち、4つのヨーロッパ言語（英語、フランス語、スペイン語、ドイツ語）をサポートしています。

Transformers 複数言語対応

Whisper Medium Vaani Telugu

OpenAI Whisper-smallアーキテクチャを基にしたテルグ語自動音声認識モデル。ARTPARK-IIScチームによりインド言語向けに最適化

音声認識その他

MoonshineはUseful Sensorsが開発した自動音声認識(ASR)モデルシリーズで、英語音声の文字起こしに特化しており、リソースが制限されたプラットフォームで優れた性能を発揮します。

Transformers 英語

月光モデルはUseful Sensorsによって開発された自動音声認識(ASR)モデルで、リソースが制限されたデバイス上で効率的な英語音声の文字起こしを実現することに焦点を当てています。

Transformers 英語

Whisper Tiny Chinese

OpenAI Whisper TinyモデルをCommon Voice 11.0中国語データセットでファインチューニングした音声認識モデル

Transformers 中国語

Whisper Base.en

WhisperはOpenAIが訓練した汎用音声認識モデルです。大規模な弱教師あり学習に基づいており、複数言語の音声転写をサポートします。

WhisperはOpenAIが訓練した自動音声認識(ASR)システムで、多言語音声の文字起こしをサポートしています。

Faster Distil Whisper Large V3

Whisper Large v3の蒸留版、効率的な自動音声認識(ASR)用

音声認識英語

Distil Whisper Large V3

このモデルはGGML形式のdistil-whisper/distil-large-v3-ggmlからRatchetのカスタム形式に変換されたバージョンで、主に音声認識タスクに使用されます。

Distil Large V3 Ct2

Distil-WhisperはWhisperモデルの蒸留版で、長文文字起こしに最適化されており、より高速な推論と高い単語誤り率(WER)性能を提供します。

音声認識英語

Nue ASRはエンドツーエンドの日本語音声認識モデルで、事前学習された音声と言語モデルを統合し、認識精度が高く高速です。

Transformers 複数言語対応

Faster Whisper Tiny

OpenAI Whisperミニモデルに基づくCTranslate2変換バージョンで、効率的な音声認識に使用されます。

音声認識複数言語対応

Whisper Large V3

Whisper-large-v3はOpenAIがオープンソースで公開した自動音声認識(ASR)モデルで、複数の言語の音声を文字に変換するタスクに対応しています。

Distil Medium.en

Distil-WhisperはWhisperモデルの蒸留バージョンで、オリジナルより6倍速く、サイズが49%縮小され、英語音声認識タスクでオリジナルに近い性能を維持しています。

音声認識英語

Whisper Small Ml

このモデルはopenai/whisper-smallをファインチューニングした音声認識モデルで、複数の言語をサポートし、自動音声認識タスクに適しています。

Whisper Small Turkish Tr Best

OpenAI Whisper-smallを微調整したトルコ語音声認識モデル、単語誤り率26.34%

Whisper MediumはOpenAIが開発した中規模の音声認識モデルで、多言語の自動音声認識（ASR）タスクをサポートしています。

Whisper SmallはOpenAIが開発した小型の自動音声認識（ASR）モデルで、音声をテキストに変換できます。

WhisperはOpenAIが訓練した自動音声認識(ASR)システムで、多言語の音声テキスト変換タスクをサポートします。

Faster Whisper Small

Transformerアーキテクチャに基づく自動音声認識（ASR）モデルで、多言語の文字起こしに対応しています。

音声認識複数言語対応

Faster Whisper Base

Whisper基礎モデルはOpenAIが開発した自動音声認識（ASR）モデルで、複数の言語の音声を文字に変換するタスクをサポートしています。

音声認識複数言語対応

Whisper Medium Arabic

openai/whisper-mediumを微調整したアラビア語音声認識モデルで、ストリーミング処理に対応しています。

Wav2vec2 Base 960h Finetuned Common Voice3

facebook/wav2vec2-base-960hをファインチューニングした音声認識モデルで、汎用音声認識タスクに適しています

Wav2vec2 Live Japanese

facebook/wav2vec2-large-xlsr-53を微調整した日本語音声認識モデルで、平仮名出力に対応しています。

Transformers 日本語

Wav2vec2 Speechdat

このモデルは、facebook/wav2vec2-large-xlsr-53をベースに、COMMON_VOICE - SV-SEデータセットで微調整されたスウェーデン語自動音声認識モデルです。

Wav2vec2 Large Xls R 300m Urdu

これはfacebook/wav2vec2 - xls - r - 300mをベースに、ウルドゥー語Common Voice 7データセットで微調整された自動音声認識モデルです。

Transformers その他

Waynehills STT Doogie Server

Doogie/Waynehills-STT-doogie-serverをファインチューニングした音声認識モデル

Distil Wav2vec2

Distil-wav2vec2はwav2vec2モデルの蒸留バージョンで、サイズが45%縮小され、推論速度が2倍に向上し、自動音声認識タスクに適しています。

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase