字節跳動UI-TARS-72B-SFT-GGUF開源模型 - 實現圖像文本輕鬆轉文本功能

首頁

Bytedance Research.ui TARS 72B SFT GGUF

由DevQuasar開發

字節跳動研究團隊發佈的72B參數規模的多模態基礎模型，專注於圖像文本轉文本任務

圖像生成文本 #多模態理解 #大規模參數 #圖像文本生成

下載量 81

發布時間 : 3/6/2025

模型概述

該模型是一個經過監督微調的大規模多模態模型，能夠處理圖像與文本之間的轉換任務，具有強大的跨模態理解能力

模型特點

大規模參數

72B參數規模提供強大的模型容量和表現力

多模態能力

能夠同時處理視覺和文本信息，實現跨模態理解

監督微調

經過專門的監督微調(SFT)，優化特定任務表現

模型能力

圖像理解

文本生成

跨模態轉換

視覺問答

使用案例

內容生成

圖像描述生成

根據輸入圖像生成詳細的文字描述

可生成準確、豐富的圖像描述

輔助工具

視覺輔助

為視覺障礙用戶提供圖像內容描述

提高無障礙訪問能力

屬性	詳情
基礎模型	bytedance-research/UI-TARS-72B-SFT
任務類型	圖像文本轉文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Bytedance Research.ui TARS 72B SFT GGUF

模型概述

模型特點

模型能力

使用案例

🚀 圖像文本轉文本模型

📋 模型信息

☕ 支持項目