モデル選定

多様なシーン対応

# 多様なシーン対応

Ultravox V0 5 Llama 3 2 1b GGUF

Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。

YOLOv8はUltralyticsが開発した効率的な物体検出モデルで、YOLO（You Only Look Once）アーキテクチャに基づいており、リアルタイム物体検出タスクに適しています。

Transformers 英語

Japanese Parler Tts Large Bate

parler-tts-large-v1をベースに再学習した日本語テキスト音声変換モデルで、高品質な日本語音声を生成可能

Transformers 日本語

Allegroはオープンソースの高品質なテキストから動画を生成するモデルで、720x1280解像度、15 FPSの6秒間の詳細な動画を生成できます。

テキスト生成ビデオ英語

Belle Whisper Large V3 Turbo Zh

whisper-large-v3-turboを基に中国語音声認識向けに微調整したモデルで、複数の中国語音声認識ベンチマークテストで性能が大幅に向上

YOLOv10はリアルタイムのエンドツーエンド物体検出モデルで、効率的な推論速度と高い検出精度を備えています。

Canvers Sound Event V1

GPL-3.0ライセンスで公開された汎用モデル。詳細な機能と用途は完全なドキュメントを参照してください

大規模言語モデル

Wav2vec2 Base Finetuned Ie

facebook/wav2vec2-baseモデルをファインチューニングしたバージョンで、特定のタスクに使用されます

大規模言語モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase