I

Internvl3 8B

FriendliAIによって開発
InternVL3-8Bは、高度なマルチモーダル大規模言語モデルで、卓越したマルチモーダル感知と推論能力を備え、ツール使用、GUIエージェント、産業用画像分析などの多くの分野で優れた性能を発揮します。
ダウンロード数 167
リリース時間 : 4/12/2025

モデル概要

InternVL3-8Bはマルチモーダル大規模言語モデルで、視覚と言語処理能力を結合し、ツール使用、GUIエージェント、産業用画像分析などのさまざまなタスクとアプリケーションシナリオをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、視覚言語タスクの処理能力を向上させます。
可変視覚位置符号化(V2PE)
視覚トークンに対してより小さく、より柔軟な位置増分を使用し、長文脈理解能力を向上させます。
混合嗜好最適化(MPO)
追加の監督を導入し、モデルの応答分布を真の分布に一致させ、推論性能を向上させます。
マルチモーダル能力拡張
ツール使用、GUIエージェント、産業用画像分析、3D視覚感知などの多くの分野のタスクをサポートします。

モデル能力

マルチモーダル感知
マルチモーダル推論
ツール使用
GUIエージェント
産業用画像分析
3D視覚感知
長文脈理解
動画理解
科学グラフ分析
多言語理解

使用事例

産業用アプリケーション
産業用画像分析
産業シーンにおける画像認識と分析タスクに使用されます。
産業用画像分析タスクで優れた性能を発揮します。
GUI操作
GUIエージェント
GUI操作とインタラクションの自動化に使用されます。
GUIエージェントタスクで優れた性能を発揮します。
マルチモーダル推論
マルチモーダル推論
視覚と言語情報を組み合わせて複雑な推論を行います。
マルチモーダル推論ベンチマークテストで卓越した性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase