モデル選定

リアルタイム音声書き起こし

# リアルタイム音声書き起こし

Whisper Large V3 Turbo

WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、強力なゼロショット汎化能力を備えています。Turboバージョンはオリジナルのプルーニングおよび微調整バージョンで、デコード層を32層から4層に削減し、速度が大幅に向上していますが、品質はわずかに低下しています。

Transformers 複数言語対応

Whisper Large V3

WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、複数言語をサポート

Safetensors 複数言語対応

Erax WoW Turbo V1.1 CT2

CTranslate2で最適化されたWhisper Large-v3 Turboのベトナム語強化ローカライズ版で、多言語音声認識をサポートし、高速で高精度

Transformers その他

Erax WoW Turbo V1.1

ベトナム語に最適化されたWhisper Large-v3 Turbo音声認識モデルで、多言語をサポートし、超高速応答と高精度を実現

Transformers その他

GigaAM-v2-RNNT はロシア語自動音声認識（ASR）モデルで、RNNTアーキテクチャに基づいており、音声からテキストへの変換タスクに適しています。

Transformers その他

waveletdeboshir

GigaAM-v2-CTCはCTC損失関数でトレーニングされたロシア語自動音声認識(ASR)モデルで、Hugging Face transformersライブラリを通じて利用可能です。

Transformers その他

waveletdeboshir

Erax WoW Turbo V1.0

ベトナム語に最適化されたWhisper Large-v3 Turbo音声認識モデルで、多言語リアルタイム書き起こしをサポート

Transformers その他

Whisper Large V3 Turbo

Whisper large-v3-turboはOpenAI Whisper large-v3の蒸留版で、デコード層を32層から4層に削減し、速度が大幅に向上しましたが品質はわずかに低下しています。

音声認識複数言語対応

W2v Bert Uk V2.1

facebook/w2v-bert-2.0を基にしたウクライナ語音声認識モデル、Yehor/openstt-ukデータセットでファインチューニング

Transformers その他

Faster Whisper Base

これはOpenAI WhisperベースモデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます。

音声認識複数言語対応

Faster Whisper Medium

これはOpenAI Whisperの中規模モデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます。

音声認識複数言語対応

Whisper Large V3 Atco2 Asr

OpenAI Whisper-large-v3をファインチューニングした音声認識モデルで、航空交通管制(ATCO)シナリオに特化しており、単語誤り率17.04%

Faster Whisper Large V1

これはOpenAI Whisper large-v1モデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます

音声認識複数言語対応

Oyqizチームによって開発されたウズベク語自動音声認識(ASR)モデル、Common Voice 10.0データセットでトレーニング

Transformers その他

Whisper Kannada Tiny

openai/whispertinyを微調整したカンナダ語自動音声認識モデルで、複数の公開カンナダ語ASRコーパスでトレーニング済み

音声認識その他

Whisper TinyはOpenAIが開発した自動音声認識(ASR)モデルで、Whisperシリーズの中で最も小さいバージョンであり、パラメータ規模は39Mです。

音声認識複数言語対応

Wav2vec2 Xls R Hindi

これはfacebook/wav2vec2-xls-r-300mをヒンディー語Common Voice 7.0データセットでファインチューニングした自動音声認識(ASR)モデルです

Transformers その他

Wav2vec2 Large Xlsr 53 Punjabi

これはHarveenchadha/vakyansh-wav2vec2-punjabi-pam-10をベースにCommon Voiceデータセットでファインチューニングしたパンジャーブ語自動音声認識モデルです

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase