Docscopeocr 7B 050425 Exp
Apache-2.0
docscopeOCR-7B-050425-expは、Qwen/Qwen2.5-VL-7B-Instructをベースに微調整されたモデルで、ドキュメントレベルのOCR、長文脈のビジュアル言語理解、および数学のLaTeX形式の正確な画像からテキストへの変換に特化しています。
画像生成テキスト
Transformers 複数言語対応

D
prithivMLmods
531
2
Videochat R1 7B Caption
Apache-2.0
VideoChat-R1_7B_caption は Qwen2-VL-7B-Instruct をベースとしたマルチモーダル動画テキスト生成モデルで、動画コンテンツの理解と記述生成に特化しています。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
48
1
Vica
Apache-2.0
ViCA-7Bは屋内動画環境における視覚空間推論に特化してファインチューニングされた視覚言語モデルで、LLaVA-Video-7B-Qwen2アーキテクチャを基盤とし、ViCA-322Kデータセットで訓練され、構造化空間アノテーションと指示ベースの複雑な推論タスクを重視しています。
ビデオ生成テキスト
Transformers 英語

V
nkkbr
41
0
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4ビットMLX量子化版はTIGER-Lab/VL-Rethinker-7Bモデルの量子化バージョンで、Appleデバイス向けに最適化され、視覚質問応答タスクをサポートします。
テキスト生成画像 英語
V
TheCluster
14
0
Vilt Gqa Ft
ViLTアーキテクチャに基づく視覚言語モデル、GQA視覚推論タスク向けにファインチューニング
テキスト生成画像
Transformers

V
phucd
62
0
Llavaction 7B
LLaVActionは動作認識向けのマルチモーダル大規模言語モデル評価・トレーニングフレームワークで、Qwen2言語モデルアーキテクチャを基盤とし、一人称視点の動画理解をサポートします。
ビデオ生成テキスト
Transformers 英語

L
MLAdaptiveIntelligence
149
1
Tinyllava Video Qwen2.5 3B Group 16 512
Apache-2.0
TinyLLaVA-VideoはQwen2.5-3Bとsiglip-so400m-patch14-384を基に構築された動画理解モデルで、グループリサンプラーを使用して動画フレームを処理します
ビデオ生成テキスト
T
Zhang199
76
0
Videochat Flash Qwen2 5 7B InternVideo2 1B
Apache-2.0
InternVideo2-1BとQwen2.5-7Bを基に構築されたマルチモーダル動画テキストモデルで、1フレームあたりわずか16トークンを使用し、最大10,000フレームの入力シーケンスをサポートします。
テキスト生成ビデオ
Transformers 英語

V
OpenGVLab
193
4
Asagi 8B
Apache-2.0
Asagi-8Bは大規模な日本語視覚言語モデル(VLM)で、広範な日本語データセットに基づいて訓練され、多様なデータソースを統合しています。
画像生成テキスト
Transformers 日本語

A
MIL-UT
58
4
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeerはDeepSeek-R1モデルを基に開発された視覚言語モデルで、思考連鎖推論能力をサポートし、対話テンプレートを通じて視覚モデルを訓練します。
画像生成テキスト
Transformers

D
mehmetkeremturkcan
25
2
Videochat Flash Qwen2 7B Res224
Apache-2.0
UMT-LとQwen2-7Bを基に構築されたマルチモーダルモデルで、長い動画の理解をサポートし、1フレームあたりわずか16トークンを使用し、コンテキストウィンドウは128kまで拡張可能です。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
80
6
Videochat Flash Qwen2 5 2B Res448
Apache-2.0
VideoChat-Flash-2BはUMT-L(300M)とQwen2.5-1.5Bを基に構築されたマルチモーダルモデルで、動画テキストからテキストへの変換タスクをサポートし、1フレームあたり16トークンのみを使用し、コンテキストウィンドウを128kに拡張します。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
904
18
Erax VL 7B V2.0 Preview
Apache-2.0
EraX-VL-7B-V2.0-Previewは、OCRと視覚的質問応答のために設計された強力なマルチモーダルモデルで、ベトナム語を含む複数言語の処理に優れ、医療用フォームや請求書などのドキュメント認識で特に優れた性能を発揮します。
画像生成テキスト
Transformers 複数言語対応

E
erax-ai
476
22
Videorefer 7B
Apache-2.0
VideoRefer-7Bはマルチモーダル大規模言語モデルで、ビデオ質問応答タスクに特化しており、ビデオ内の時空間的な物体関係を理解・分析できます。
テキスト生成ビデオ
Transformers 英語

V
DAMO-NLP-SG
87
4
Llava SpaceSGG
Apache-2.0
LLaVA-SpaceSGGはLLaVA-v1.5-13bをベースとした視覚質問応答モデルで、シーングラフ生成タスクに特化しており、画像内容を理解し構造化されたシーン記述を生成できます。
テキスト生成画像
Safetensors 英語
L
wumengyangok
36
0
Longvu Qwen2 7B
Apache-2.0
LongVUはQwen2-7Bをベースとしたマルチモーダルモデルで、長編動画の言語理解タスクに特化し、時空間適応圧縮技術を採用しています。
ビデオ生成テキスト
L
Vision-CAIR
230
69
Mmalaya2
Apache-2.0
InternVL-Chat-V1-5を微調整したマルチモーダルモデルで、MMBenchベンチマークテストで優れた性能を発揮
画像生成テキスト
M
DataCanvas
26
2
Table Llava V1.5 7b
Table LLaVA 7Bは、様々な表画像を理解し多様な表関連タスクを遂行するために設計されたオープンソースのマルチモーダルチャットボットです。
画像生成テキスト
Transformers 英語

T
SpursgoZmy
165
12
Idefics2 8b Base
Apache-2.0
Idefics2はHugging Faceが開発したオープンソースのマルチモーダルモデルで、画像とテキスト入力を処理しテキスト出力を生成でき、OCR、ドキュメント理解、視覚的推論において優れた性能を発揮します。
画像生成テキスト
Transformers 英語

I
HuggingFaceM4
1,409
28
Monkey Chat
モンキーモデルは大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル手法の改良により、様々な視覚タスクで優れた性能を発揮します。
画像生成テキスト
Transformers

M
echo840
179
16
Chattruth 7B
ChatTruth-7BはQwen-VLアーキテクチャを最適化した多言語視覚-言語モデルで、高解像度画像処理能力を強化し、還元モジュールを導入して計算コストを削減
画像生成テキスト
Transformers 複数言語対応

C
mingdali
73
13
Heron Chat Git Ja Stablelm Base 7b V0
Heron GIT Japanese StableLM Base 7B は入力画像について対話可能な視覚言語モデルです。
画像生成テキスト
Transformers 日本語

H
turing-motors
57
1
Instructblip Vicuna 13b
その他
InstructBLIPはBLIP-2の視覚命令チューニング版で、Vicuna-13b言語モデルを基にした視覚言語タスク用モデルです。
画像生成テキスト
Transformers 英語

I
Salesforce
1,251
42
Instructblip Flan T5 Xxl
MIT
InstructBLIPはBLIP-2を視覚命令チューニングしたバージョンで、画像とテキスト命令に基づいて説明や回答を生成できます
画像生成テキスト
Transformers 英語

I
Salesforce
937
21
Video Blip Flan T5 Xl Ego4d
MIT
VideoBLIPはBLIP-2の強化版で、動画データを処理可能、Flan T5-xlを言語モデルのバックボーンとして採用しています。
ビデオ生成テキスト
Transformers 英語

V
kpyu
40
3
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIPはBLIP-2の強化版で、動画データを処理可能、言語モデルのバックボーンとしてOPT-2.7bを採用しています。
ビデオ生成テキスト
Transformers 英語

V
kpyu
429
16
Donut Refexp Combined V1
ユーザーインターフェースの参照表現理解に特化した視覚的質問応答タスク用モデル。
テキスト生成画像
Transformers 英語

D
ivelin
503
4
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98