動態分辨率處理

# 動態分辨率處理

Internvl3 38B Instruct GGUF

InternVL3-38B-Instruct 是一個先進的多模態大語言模型（MLLM），展示了卓越的整體性能，具備強大的多模態感知和推理能力。

圖像生成文本

Internvl3 1B Pretrained

InternVL3-1B是OpenGVLab推出的先進多模態大語言模型，已完成原生多模態預訓練但未進行後訓練。

文本生成圖像

Transformers 其他

BiQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，專注於高效視覺文檔檢索。

文本生成圖像英語

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VL是Qwen家族的最新視覺語言模型，專注於增強視覺理解和代理能力。

文本生成圖像

Transformers 英語

Colqwen2.5 3b Multilingual V1.0 Merged

基於Qwen2.5-VL-3B-Instruct與ColBERT策略的多語言視覺檢索模型，支持動態輸入圖像分辨率，生成ColBERT風格的多向量文本與圖像表徵。

文本生成圖像

Transformers 支持多種語言

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VL 是 Qwen 家族的最新視覺語言模型，具備強大的視覺理解和代理能力，支持多格式視覺定位和結構化輸出生成。

圖像生成文本

Transformers 英語

Colqwen2.5 7b Multilingual V1.0

基於Qwen2.5-VL-7B-Instruct並採用ColBERT策略的多語言視覺檢索模型，在Vidore基準測試中排名第一

文本生成圖像支持多種語言

Colqwen2.5 3b Multilingual V1.0

基於Qwen2.5-VL-3B-Instruct並採用ColBERT策略的多語言視覺檢索器，在Vidore基準測試中表現優異

文本生成圖像支持多種語言

Qwen2.5 VL 72B Instruct Pointer AWQ

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備增強的視覺理解、代理能力和結構化輸出生成功能。

圖像生成文本

Transformers 英語

Uground V1 72B Preview

Qwen2-VL是Qwen-VL模型系列的最新迭代，具備全分辨率圖像理解、超長視頻解析和多語言圖文識別能力。

圖像生成文本

Transformers 英語

UGround是一個強大的GUI視覺定位模型，採用簡單的方法進行訓練，由OSUNLP和Orby AI合作完成。

多模態融合

Transformers 英語

UGround是一款採用簡單配方訓練的強大GUI視覺定位模型，由OSU NLP Group與Orby AI合作完成。

圖像生成文本

Transformers 英語

Colqwen2 2b V1.0

基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，能夠生成多向量文本與圖像表示

文本生成圖像支持多種語言

ColQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，用於高效索引文檔的視覺特徵。

文本生成圖像英語

基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，能高效通過視覺特徵索引文檔

文本生成圖像

Safetensors 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase