K

Kimi VL A3B Thinking 2506

由 moonshotai 开发
Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升级版,在多模态推理、视觉感知与理解、视频场景处理等方面有显著提升,支持更高分辨率图像,且能在消耗更少令牌的情况下实现更智能的思考。
下载量 515
发布时间 : 6/21/2025

模型简介

这是一个多模态视觉语言模型,专注于图像文本转文本任务,具有强大的视觉理解和推理能力。

模型特点

更智能思考,更少令牌消耗
在多模态推理基准测试中达到更好的准确率,同时平均所需思考长度减少20%
视觉感知与理解能力提升
在一般视觉感知和理解方面达到相同甚至更好的能力,超越或匹配非思考模型的能力
视频场景处理能力
在视频推理和理解基准测试中有所改进,为开源模型设定了新的技术水平
高分辨率支持
支持单张图像320万总像素,是前一版本的4倍,在高分辨率感知和OS代理接地基准测试中带来显著改进

模型能力

多模态推理
视觉感知
图像理解
视频理解
高分辨率图像处理
长文本处理
数学推理
文档处理

使用案例

视觉问答
图像内容识别
识别图像中的物体或场景
如准确识别猫的品种
视频理解
视频内容分析
理解视频中的场景和动作
在VideoMMMU基准测试中达到65.2的准确率
数学推理
视觉数学问题解答
解决包含视觉元素的数学问题
在MathVista_MINI基准测试中达到80.1的准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase