INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized
Apache-2.0
Qwen2.5-VL-72B-Instructを基に改良された視覚言語モデルで、複数の視覚推論ベンチマークで優れた性能を発揮
テキスト生成画像 英語
I
GeorgyGUF
230
0
Heron NVILA Lite 33B
Apache-2.0
Heron-NVILA-Lite-33B はNVILA-Liteアーキテクチャに基づき、日本語に特化してトレーニングされたビジュアルランゲージモデルで、日本語と英語のマルチモーダルタスクをサポートします。
画像生成テキスト 複数言語対応
H
turing-motors
99
3
Finetune VQA 1B
Apache-2.0
InternVL3-1BとVintern-1B-v3_5を基にファインチューニングした視覚質問応答モデルで、ベトナム語をサポートし、画像内容理解と質問応答タスクに適しています。
テキスト生成画像 その他
F
TienAnh
20
0
Emova Qwen 2 5 3b
Apache-2.0
EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情制御可能なテキストと音声応答を生成できます。
マルチモーダル融合
Transformers 複数言語対応

E
Emova-ollm
25
2
Internvl3 2B Hf
その他
InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。
画像生成テキスト
Transformers その他

I
OpenGVLab
41.22k
2
Internvl3 1B Hf
その他
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。
画像生成テキスト
Transformers その他

I
OpenGVLab
1,844
2
Internvl3 78B Pretrained
その他
InternVL3-78BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、卓越した総合性能を発揮します。前世代のInternVL 2.5と比較し、より強力なマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などの新領域に能力を拡張しています。
テキスト生成画像
Transformers その他

I
OpenGVLab
22
1
Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged
アラビア語の光学文字認識(OCR)に特化して設計されたビジュアル言語モデルで、画像内のアラビア語文字を直接認識できます。
画像生成テキスト
Transformers

Q
NAMAA-Space
467
0
Qwen2.5 Omni 7B GPTQ 4bit
MIT
Qwen2.5-Omni-7Bモデルをベースとした4ビットGPTQ量子化バージョンで、多言語およびマルチモーダルタスクをサポートします。
マルチモーダル融合
Safetensors 複数言語対応
Q
FunAGI
3,957
51
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5は、長く豊富な文脈(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデル(MLLM)で、InternVL2.5上に構築されています。
テキスト生成ビデオ
Transformers 英語

I
FriendliAI
129
1
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
8,265
60
Internlm Xcomposer2d5 Ol 7b
その他
InternLM-XComposer2.5-OLは、長時間ストリーミング映像と音声のインタラクションをサポートする全方位マルチモーダルシステムです。
テキスト生成画像
Safetensors
I
internlm
79
49
Mplug Owl3 7B 241101
Apache-2.0
mPLUG-Owl3は先進的なマルチモーダル大規模言語モデルで、長い画像シーケンスの理解問題に焦点を当て、超注意力メカニズムにより処理速度とシーケンス長のサポートを大幅に向上させます。
テキスト生成画像 英語
M
mPLUG
302
10
Llm Jp 3 Vila 14b
国立情報学研究所によって開発された大規模視覚言語モデルで、日本語と英語をサポートし、強力な画像理解とテキスト生成能力を備えています。
画像生成テキスト
Safetensors 日本語
L
llm-jp
106
10
Pixtral 12B Captioner Relaxed
Apache-2.0
Pixtral-12B-2409マルチモーダル大規模言語モデルを基にした命令微調整版で、与えられた画像に対してより豊富な詳細記述を生成可能
画像生成テキスト
Transformers 英語

P
Ertugrul
79
24
Docowl2
Apache-2.0
mPLUG-DocOwl2はOCR不要の複数ページ文書理解マルチモーダル大規模言語モデルで、高解像度文書圧縮器により文書内容を効率的にエンコードします。
画像生成テキスト 英語
D
mPLUG
482
99
Chartmoe
Apache-2.0
ChartMoEはInternLM-XComposer2を基にしたマルチモーダル大規模言語モデルで、専門家混合コネクタを採用し、高度なチャート機能を備えています。
画像生成テキスト
Transformers

C
IDEA-FinAI
250
12
Kangaroo
Apache-2.0
カンガルーは長編動画理解のために設計された強力なマルチモーダル大規模言語モデルで、中国語と英語のバイリンガル対話と長編動画入力に対応しています。
ビデオ生成テキスト
Transformers 複数言語対応

K
KangarooGroup
163
12
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。
画像生成テキスト
Transformers 英語

X
Salesforce
240
18
Internlm Xcomposer2 Vl 1 8b
その他
InternLM2ベースの視覚-言語大規模モデルで、優れた画像理解と創作能力を備えています
テキスト生成画像
Transformers

I
internlm
169
18
Internlm Xcomposer2 Vl 7b
その他
InternLM-XComposer2はInternLM2を基に開発された視覚-言語大規模モデルで、卓越した画像テキスト理解と創作能力を備えています。
テキスト生成画像
Transformers

I
internlm
1,902
82
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98