I

Internvl3 1B GGUF

Developed by unsloth
InternVL3-1Bは、高度なマルチモーダル大規模言語モデルであり、マルチモーダル感知や推論などの能力に優れており、ツール使用やGUIエージェントなどのマルチモーダル能力も拡張されています。
Downloads 868
Release Time : 5/18/2025

Model Overview

InternVL3-1Bはマルチモーダル大規模言語モデルで、卓越したマルチモーダル感知と推論能力を備え、ツール使用、GUIエージェント、産業用画像分析、3Dビジョン感知などの様々なアプリケーションシーンをサポートします。

Model Features

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダルタスク処理能力を向上させます。
可変視覚位置符号化(V2PE)
視覚トークンにより小さく、より柔軟な位置増分を使用し、長文脈理解能力を向上させます。
混合嗜好最適化(MPO)
嗜好損失、品質損失、生成損失の組み合わせにより、推論性能を向上させます。
動的解像度戦略
画像を448×448ピクセルのタイルに分割し、複数の画像とビデオデータをサポートします。

Model Capabilities

マルチモーダル感知
マルチモーダル推論
ツール使用
GUIエージェント
産業用画像分析
3Dビジョン感知
ビデオ理解
科学グラフ分析
創作的な文章作成
マルチモーダル多言語理解

Use Cases

産業用アプリケーション
産業用画像分析
産業シーンにおける画像認識と分析タスクに使用されます。
GUI操作
GUIエージェント
自動化されたGUI操作とインタラクションをサポートします。
3Dビジョン
3Dビジョン感知
3Dシーンの理解と分析に使用されます。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase