モデル選定

低遅延音声生成

# 低遅延音声生成

Kimi-Audioはオープンソースの音声基盤モデルで、音声理解、生成、対話において優れた性能を発揮します。

音声認識複数言語対応

Orpheus 3b 0.1 GGUF

Llamaアーキテクチャに基づく音声大規模モデルで、高品質なテキスト読み上げを設計し、感情制御とリアルタイムストリーミングをサポート

音声合成複数言語対応

GLaDOSはテキスト読み上げ(TTS)モデルで、NVIDIAのNeMoとRIVAフレームワークを基に構築され、高品質な音声出力を生成できます。

音声合成英語

Seamless M4t V2 Large

SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。

テキスト生成オーディオ

Transformers 複数言語対応

Mms Spa Finetuned Chilean Monospeaker

Facebook MMS-TTSスペイン語版を基にした軽量テキスト音声変換モデルで、チリスペイン語アクセントに特化して微調整されています

Transformers スペイン語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase