SAIL 7B
Apache-2.0
SAILは視覚と言語のために設計された単一Transformerモデルで、統一されたマルチモーダル大規模言語モデル(MLLM)として、単一アーキテクチャ内で元のピクセルエンコーディングと言語デコード機能をシームレスに統合しています。
画像生成テキスト
Transformers

S
ByteDance-Seed
119
11
Internvl3 8B Hf
その他
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。
画像生成テキスト
Transformers その他

I
OpenGVLab
454
1
Internvl3 2B AWQ
その他
InternVL3-2BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などをサポートします。

I
OpenGVLab
677
1
Internvl3 1B
その他
InternVL3-1BはInternVL3シリーズの10億パラメータ規模のマルチモーダル大規模言語モデルで、InternViTビジョンエンコーダーとQwen2.5言語モデルを統合し、優れたマルチモーダル知覚と推論能力を備えています。

I
FriendliAI
71
1
Ovis2 1B Dev
Apache-2.0
Ovis2-1Bはマルチモーダル大規模言語モデル(MLLM)Ovisシリーズの最新メンバーで、視覚とテキストの埋め込み構造のアライメントに焦点を当て、小型モデルながら高性能、強化された推論能力、動画と複数画像処理、多言語OCR強化などの特徴を備えています。
テキスト生成画像
Transformers 複数言語対応

O
Isotr0py
79
1
Video R1 7B
Apache-2.0
Video-R1-7BはQwen2.5-VL-7B-Instructを最適化したマルチモーダル大規模言語モデルで、ビデオ推論タスクに特化しており、ビデオコンテンツを理解し関連する質問に答えることができます。
ビデオ生成テキスト
Transformers 英語

V
Video-R1
2,129
9
Finedefics
Finedeficsはオープンソースのマルチモーダル大規模言語モデル(MLLM)で、オブジェクトの情報的属性記述を組み込むことで、細粒度視覚認識(FGVR)能力を強化しています。
画像生成テキスト
F
StevenHH2000
82
6
Minimax VL 01
MiniMax-VL-01は強力なマルチモーダル大規模言語モデルで、'ViT-MLP-LLM'フレームワークを採用し、動的解像度処理能力を持ち、多くの視覚言語タスクで優れた性能を発揮します。
画像生成テキスト
M
MiniMaxAI
237
253
Videorefer 7B Stage2.5
Apache-2.0
VideoRefer-7Bはビデオ大規模言語モデルに基づくマルチモーダルモデルで、時空間物体理解タスクに特化しています。
テキスト生成ビデオ
Transformers 英語

V
DAMO-NLP-SG
20
2
P MoD LLaVA NeXT 7B
Apache-2.0
p-MoDは漸進的比例減衰法に基づいて構築された混合深度マルチモーダル大規模言語モデルで、画像テキスト生成タスクをサポートします。
画像生成テキスト
Safetensors
P
MCG-NJU
74
4
Llava UHD V2 Vicuna 7B
LLaVA-UHD v2は、階層的ウィンドウトランスフォーマーを中心に構築された、高度なマルチモーダル大規模言語モデルです。高解像度特徴ピラミッドを通じて、さまざまな視覚粒度を捉えることができます。
マルチモーダル融合
Transformers

L
YipengZhang
103
6
Auroracap 7B VID Xtuner
Apache-2.0
AuroraCapは画像と動画の字幕生成に特化したマルチモーダル大規模言語モデルで、効率的で詳細な動画字幕生成に焦点を当てています。
ビデオ生成テキスト
A
wchai
31
5
Eagle X5 7B
Eagleは、視覚を中心とした高解像度マルチモーダル大規模言語モデルのシリーズで、1K以上の入力解像度をサポートし、光学文字認識やドキュメント理解などのタスクで優れた性能を発揮します。
画像生成テキスト
Transformers

E
NVEagle
918
26
M3D LaMed Llama 2 7B
Apache-2.0
M3Dはマルチモーダル大規模言語モデルに基づく3D医療画像解析技術で、M3D-Dataデータセット、M3D-LaMedモデル、M3D-Bench評価基準を含みます。
画像生成テキスト
Transformers

M
GoodBaiBai88
209
2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98