モデル選定

マルチタスク音声処理

# マルチタスク音声処理

Canary 1b Flash

NVIDIA NeMo Canary Flashは多言語マルチタスクモデルファミリーで、複数の音声ベンチマークで最先端の性能を実現しています。4つの言語の自動音声認識と翻訳タスクをサポートします。

音声認識複数言語対応

Meralion AudioLLM Whisper SEA LION

シンガポールの多言語多文化環境に特化した音声-テキスト大規模言語モデルで、Whisper-large-v2音声エンコーダーとSEA-LION V3テキストデコーダーを統合

テキスト生成オーディオ

Kotoba Whisper Bilingual V1.0

Kotoba-Whisper-BilingualはWhisperモデルを蒸留して訓練されたモデルで、日本語と英語の音声認識および音声からテキストへの翻訳タスクのために設計されています。

Transformers 複数言語対応

Owsm Ctc V3.2 Ft 1B

OWSM-CTCは階層型マルチタスク自己条件付きCTCに基づくエンコーダ専用音声基礎モデルで、多言語音声認識、音声翻訳、言語識別をサポートします。

音声認識その他

Canary-1BはNVIDIA NeMoが開発した多言語マルチタスクモデルで、英語、ドイツ語、フランス語、スペイン語の自動音声認識と音声翻訳タスクをサポートします。

音声認識複数言語対応

FunASRは音声認識の学術研究と産業応用を結びつける基本ツールキットで、音声認識、音声活動検出、句読点回復など多機能をサポートします。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase