モデル選定

リアルタイム画像解析

# リアルタイム画像解析

Crime Cctv Image Detection

Google Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、監視カメラ画像内の犯罪行為を検出します。精度は約83%。

Yolov8s Visdrone

ENOT-AutoDLフレームワークで最適化されたYOLOv8sモデルで、VisDroneデータセットの目標検出タスク向けに設計されています。

Pix2struct Tiny Random

これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。

画像生成テキスト

Segformer B0 Finetuned Human Parsing

SegFormer-B0アーキテクチャをベースにファインチューニングした人体解析モデルで、画像中の人体部位のセグメンテーションと認識に使用されます

画像セグメンテーション

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase