I

Internvl3 1B GGUF

unslothによって開発
InternVL3-1Bは、高度なマルチモーダル大規模言語モデルであり、マルチモーダル感知や推論などの能力に優れており、ツール使用やGUIエージェントなどのマルチモーダル能力も拡張されています。
ダウンロード数 868
リリース時間 : 5/18/2025

モデル概要

InternVL3-1Bはマルチモーダル大規模言語モデルで、卓越したマルチモーダル感知と推論能力を備え、ツール使用、GUIエージェント、産業用画像分析、3Dビジョン感知などの様々なアプリケーションシーンをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダルタスク処理能力を向上させます。
可変視覚位置符号化(V2PE)
視覚トークンにより小さく、より柔軟な位置増分を使用し、長文脈理解能力を向上させます。
混合嗜好最適化(MPO)
嗜好損失、品質損失、生成損失の組み合わせにより、推論性能を向上させます。
動的解像度戦略
画像を448×448ピクセルのタイルに分割し、複数の画像とビデオデータをサポートします。

モデル能力

マルチモーダル感知
マルチモーダル推論
ツール使用
GUIエージェント
産業用画像分析
3Dビジョン感知
ビデオ理解
科学グラフ分析
創作的な文章作成
マルチモーダル多言語理解

使用事例

産業用アプリケーション
産業用画像分析
産業シーンにおける画像認識と分析タスクに使用されます。
GUI操作
GUIエージェント
自動化されたGUI操作とインタラクションをサポートします。
3Dビジョン
3Dビジョン感知
3Dシーンの理解と分析に使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase