K

Kimi VL A3B Thinking 2506

moonshotaiによって開発
Kimi-VL-A3B-Thinking-2506はKimi-VL-A3B-Thinkingのアップグレード版で、マルチモーダル推論、視覚認知と理解、ビデオシーン処理などの分野で著しい向上が見られ、より高解像度の画像をサポートし、より少ないトークンを消費しながらよりスマートな思考を実現します。
ダウンロード数 515
リリース時間 : 6/21/2025

モデル概要

これはマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクに特化しており、強力な視覚理解と推論能力を持っています。

モデル特徴

よりスマートな思考と少ないトークン消費
マルチモーダル推論のベンチマークテストでより高い精度を達成し、同時に平均必要思考長を20%削減します。
視覚認知と理解能力の向上
一般的な視覚認知と理解の分野で同等以上の能力を発揮し、非思考モデルの能力を上回るか同等のレベルに達します。
ビデオシーン処理能力
ビデオ推論と理解のベンチマークテストで改善が見られ、オープンソースモデルに新しい技術レベルを設定します。
高解像度サポート
単一画像の総画素数320万をサポートし、前バージョンの4倍であり、高解像度認知とOSエージェント接地のベンチマークテストで著しい改善をもたらします。

モデル能力

マルチモーダル推論
視覚認知
画像理解
ビデオ理解
高解像度画像処理
長文処理
数学的推論
ドキュメント処理

使用事例

視覚質問応答
画像内容識別
画像内の物体やシーンを識別する
例えば猫の品種を正確に識別する
ビデオ理解
ビデオ内容分析
ビデオ内のシーンや動作を理解する
VideoMMMUベンチマークテストで65.2の精度を達成する
数学的推論
視覚数学問題の解決
視覚要素を含む数学問題を解く
MathVista_MINIベンチマークテストで80.1の精度を達成する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase