モデル選定

高精度書き起こし

# 高精度書き起こし

Stt Ru Fastconformer Hybrid Large Pc Onnx

NVIDIA FastConformer-Hybrid Large は、FastConformer アーキテクチャに基づくロシア語自動音声認識モデルで、CTC と RNN-T デコーダーをサポートしています。

Whisper Custom Small

OpenAI Whisper アーキテクチャに基づく小型音声認識モデルで、英語音声からテキストへの変換タスクに特化しています。

音声認識英語

Whisper Large V3 Turbo Russian

OpenAI Whisper Large V3 Turboを基に最適化したロシア語自動音声認識(ASR)モデル、Mozilla Common Voice 17ロシア語データセットでファインチューニング

Transformers その他

Belle Whisper Large V3 Turbo Zh

whisper-large-v3-turboを基に中国語音声認識向けに微調整したモデルで、複数の中国語音声認識ベンチマークテストで性能が大幅に向上

Oyqiz/uzbek_sttをベースにファインチューニングしたウズベク語音声認識モデルで、特に法律と軍事分野のデータに最適化されています

Transformers その他

Whisper Large V3 Gguf

Whisperは多言語自動音声認識（ASR）システムで、複数の言語の音声をテキストに変換するタスクをサポートしています。

音声認識複数言語対応

Whisper Large V3 Ru Podlodka

これはWhisper Large V3をベースにしたロシア語音声認識モデルで、ロシア語音声に特化して最適化されています。

Transformers その他

Faster Whisper Large V3 Ja

OpenAI Whisper large-v3をベースにした日本語最適化バージョン、多言語音声認識をサポート

音声認識複数言語対応

Faster Whisper Large V3

Whisper large-v3はOpenAIが開発した大規模多言語自動音声認識(ASR)モデルで、複数言語の音声からテキストへの変換タスクをサポートしています。

音声認識複数言語対応

Wav2vec2 Base 960h

Facebookのwav2vec2-base-960hモデルをONNX形式に変換したバージョンで、Transformers.js向けに設計されており、ブラウザ上での音声認識をサポート

Wav2vec2 Large Xlsr 53 English

wav2vec 2.0アーキテクチャに基づく大規模音声認識モデルで、英語音声をテキストに変換可能

Faster Whisper Large V2 Mix Jp

これはwhisper-large-v2-mix-jpモデルのCTranslate2変換バージョンで、日本語音声認識タスクに適しています

音声認識日本語

Faster Whisper Large V2 Japanese 5k Steps

Whisper Large V2モデルに基づく日本語自動音声認識(ASR)モデルで、CTranslate2で最適化変換され、効率的な推論をサポートします。

Transformers 日本語

Wav2vec2 Nepali

Facebookのwav2vec2モデルをファインチューニングしたネパール語音声認識モデル

Transformers その他

anish-shilpakar

Faster Whisper Large V2

これはOpenAI Whisper large-v2モデルのCTranslate2変換バージョンで、効率的な音声認識に使用されます

音声認識複数言語対応

Icefall Asr Gigaspeech Conformer Ctc

Icefallはk2フレームワークに基づく自動音声認識（ASR）ツールキットで、効率的で柔軟な音声認識モデルのトレーニングと推論に焦点を当てています。

音声認識英語

wav2vec 2.0は自己教師あり学習の音声認識モデルで、大量の未ラベル音声データで事前学習され、効率的に音声をテキストに変換できます。

Xls R 300m Sv Robust

これはKBLab/wav2vec2-large-voxrexを基に、スウェーデン語Common Voiceデータセットでファインチューニングした自動音声認識モデルです

Transformers その他

Wav2vec2 Large Xls R 300m Hindi

これはFacebookのwav2vec2-xls-r-300mモデルをヒンディー語音声データセットでファインチューニングした自動音声認識(ASR)モデルです

Transformers その他

Wav2vec2 Tamil Stt

これはWav2Vec2アーキテクチャに基づくタミル語音声認識モデルで、タミル語音声をテキストに変換できます。

Wav2vec2 Xlsr Korean Senior

wav2vec2-xlsrアーキテクチャに基づく韓国語自動音声認識モデルで、韓国の高齢者音声に特化して最適化されています

Transformers その他

Wav2vec2 Gujarati Stt

これはWav2Vec2アーキテクチャに基づくグジャラート語音声認識モデルで、グジャラート語音声を直接テキストに変換します。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase