3

360VL 70B

qihoo360によって開発
360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。
ダウンロード数 103
リリース時間 : 5/16/2024

モデル概要

360VLは業界初のLLama3-70Bベースのオープンソース大規模マルチモーダルモデルで、グローバル知覚型マルチブランチプロジェクターアーキテクチャを採用し、マルチターン画像テキスト対話と細粒度画像解析をサポートします。

モデル特徴

マルチターン画像テキスト対話
テキストと画像を入力としてテキスト出力を生成でき、単一画像でのマルチターン視覚質問応答を実現します。
二言語テキストサポート
中英二言語での対話をサポートし、画像内の文字認識も可能です。
強力な画像理解
視覚コンテンツの分析に優れ、画像情報の抽出、整理、要約などのタスクを効率的に遂行できます。
細粒度画像解析
672×672のより高解像度の画像理解をサポートします。

モデル能力

視覚質問応答
画像内容分析
中英テキスト生成
画像情報抽出
マルチターン対話

使用事例

視覚質問応答
画像内容質問応答
ユーザーが画像をアップロードして質問し、モデルが画像内容に関する質問に回答します。
画像内のオブジェクト、シーン、文字情報を正確に識別できます。
画像分析
画像情報抽出
画像からキー情報を抽出して要約します。
画像情報の抽出と整理を効率的に遂行できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase