多模態代理

# 多模態代理

GUI Actor 7B Qwen2 VL

GUI-Actor-7B是基於Qwen2-VL-7B-Instruct開發的視覺語言模型，專注於圖形用戶界面(GUI)代理任務，提供無座標的視覺接地解決方案。

多模態融合

UI TARS 1.5 7B GGUF

UI-TARS-1.5-7B是基於先進技術的多模態模型，在圖像文本轉換等任務中表現出色，採用創新的量化方法，能在極低比特率下保持較高的準確性。

文本生成圖像

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL是Qwen家族最新推出的視覺語言模型，具備強大的視覺理解和多模態處理能力，支持圖像、視頻分析和結構化輸出。

圖像生成文本英語

Omniparser V2.0

OmniParser是一款通用屏幕解析工具，能夠將UI截圖解釋/轉換為結構化格式，以提升基於LLM的UI代理性能。

圖像生成文本

Fuyu-8B是Adept AI開發的多模態文本-圖像轉換器，專為數字代理設計，支持任意圖像分辨率，響應迅捷且架構簡潔。

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase