K

Kimi VL A3B Thinking 2506

由moonshotai開發
Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升級版,在多模態推理、視覺感知與理解、視頻場景處理等方面有顯著提升,支持更高分辨率圖像,且能在消耗更少令牌的情況下實現更智能的思考。
下載量 515
發布時間 : 6/21/2025

模型概述

這是一個多模態視覺語言模型,專注於圖像文本轉文本任務,具有強大的視覺理解和推理能力。

模型特點

更智能思考,更少令牌消耗
在多模態推理基準測試中達到更好的準確率,同時平均所需思考長度減少20%
視覺感知與理解能力提升
在一般視覺感知和理解方面達到相同甚至更好的能力,超越或匹配非思考模型的能力
視頻場景處理能力
在視頻推理和理解基準測試中有所改進,為開源模型設定了新的技術水平
高分辨率支持
支持單張圖像320萬總像素,是前一版本的4倍,在高分辨率感知和OS代理接地基準測試中帶來顯著改進

模型能力

多模態推理
視覺感知
圖像理解
視頻理解
高分辨率圖像處理
長文本處理
數學推理
文檔處理

使用案例

視覺問答
圖像內容識別
識別圖像中的物體或場景
如準確識別貓的品種
視頻理解
視頻內容分析
理解視頻中的場景和動作
在VideoMMMU基準測試中達到65.2的準確率
數學推理
視覺數學問題解答
解決包含視覺元素的數學問題
在MathVista_MINI基準測試中達到80.1的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase