モデル選定

マルチモーダル視覚言語モデル

# マルチモーダル視覚言語モデル

Internvl3 8B Bf16

InternVL3-8B-bf16 はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Llama 4 Scout 17B 16E 8bit

これはMetaのLlama-4-Scout-17B-16Eモデルから変換されたMLX形式のモデルで、多言語と視覚言語タスクをサポートします。

テキスト生成画像

Transformers 複数言語対応

Qwen2.5vl 3B VLM R1 REC 500steps

Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。

テキスト生成画像

Safetensors 英語

Eagle2は高性能な視覚言語モデルシリーズで、データ戦略とトレーニング手法の最適化を通じてモデル性能を向上させることに焦点を当てています。Eagle2-9Bはこのシリーズの大型モデルで、性能と推論速度の間で良好なバランスを実現しています。

テキスト生成画像

Transformers その他

KnutJaegersberg

Eagle2-9BはNVIDIAが発表した最新の視覚言語モデル(VLM)で、性能と推論速度の完璧なバランスを実現しています。Qwen2.5-7B-Instruct言語モデルとSiglip+ConvNext視覚モデルを基盤として構築され、多言語・マルチモーダルタスクをサポートします。

画像生成テキスト

Transformers その他

BioTrove-CLIPは、CLIPスタイルの生物多様性視覚言語基盤モデルで、4000万枚の画像と3万3000種の植物・動物種を含むデータセットでトレーニングされています。

テキスト生成画像英語

Qwen For Jawi V1

Qwen2-VL-2B-Instructをファインチューニングしたジャウィ文字OCRモデル、歴史的マレー語テキストの識別に特化

画像生成テキスト

culturalheritagenus

Vitamin XL 256px

ViTamin-XL-256pxはViTaminアーキテクチャに基づく視覚言語モデルで、効率的な視覚特徴抽出とマルチモーダルタスク向けに設計されており、高解像度画像処理をサポートします。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase