GUI Actor 7B Qwen2 VL
MIT
GUI-Actor-7B是基於Qwen2-VL-7B-Instruct開發的視覺語言模型,專注於圖形用戶界面(GUI)代理任務,提供無座標的視覺接地解決方案。
多模態融合
Transformers

G
microsoft
207
14
UI TARS 1.5 7B GGUF
Apache-2.0
UI-TARS-1.5-7B是基於先進技術的多模態模型,在圖像文本轉換等任務中表現出色,採用創新的量化方法,能在極低比特率下保持較高的準確性。
文本生成圖像
Transformers

U
Mungert
2,526
3
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL是Qwen家族最新推出的視覺語言模型,具備強大的視覺理解和多模態處理能力,支持圖像、視頻分析和結構化輸出。
圖像生成文本 英語
Q
unsloth
8,427
4
Omniparser V2.0
MIT
OmniParser是一款通用屏幕解析工具,能夠將UI截圖解釋/轉換為結構化格式,以提升基於LLM的UI代理性能。
圖像生成文本
Transformers

O
microsoft
6,729
1,185
Fuyu 8b
Fuyu-8B是Adept AI開發的多模態文本-圖像轉換器,專為數字代理設計,支持任意圖像分辨率,響應迅捷且架構簡潔。
圖像生成文本
Transformers

F
adept
14.22k
1,006
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98