Hillava Llama 3 1 8b_分類| AIbase模型庫

首頁

Hillava Llama 3 1 8b

由HancomInSpaceAI開發

HiLLaVA-llama3.1是基於LLaVA架構的多模態模型，整合了視覺和語言模型，支持韓語和英語，適用於視覺與語言結合的任務。

圖像生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #多模態視覺語言理解 #韓英雙語支持 #GPT-4級多模態能力

下載量 208

發布時間 : 8/29/2024

模型概述

該模型通過整合'openai/clip-vit-large-patch14-336'視覺模型和'meta-llama/Meta-Llama-3.1-8B-Instruct'語言模型進行了精細調優，旨在各類任務中提供高質量結果。

模型特點

多模態能力

整合視覺和語言模型，能夠處理圖像和文本結合的複雜任務。

雙語支持

支持韓語和英語，滿足多語言環境的需求。

高性能調優

使用4塊H100 GPU進行了4小時的全面預訓練和11小時的微調，確保模型性能。

模型能力

圖像描述生成

視覺問答

多模態指令跟隨

圖像內容分析

使用案例

視覺內容理解

圖像描述生成

根據輸入的圖像生成詳細的文字描述。

能夠準確描述圖像中的物體、場景和動作。

視覺問答

回答關於圖像內容的特定問題。

能夠正確識別圖像中的物體並回答相關問題。

多模態交互

指令跟隨

根據圖像和文本指令執行復雜任務。

能夠理解並執行結合圖像和文本的複雜指令。

🚀 Hi LLaVA-llama3.1

Hancom InSpace開發的大型語言與視覺助手，融合先進技術，在多模態任務中表現出色。

🚀 快速開始

本模型基於強大的LLaVA架構構建，通過集成“openai/clip - vit - large - patch14 - 336”視覺模型和“meta - llama/Meta - Llama - 3.1 - 8B - Instruct”語言模型進行了精心微調。

為確保最佳性能，模型先使用4塊H100 GPU進行了4小時的全面預訓練，隨後又進行了11小時的微調。該模型旨在為各種任務提供高質量的結果，展現了先進人工智能和機器學習技術的潛力。

✨ 主要特性

多模態能力：能夠處理圖像和文本輸入，實現視覺特徵與指令跟隨任務的對齊，向GPT - 4水平的多模態能力邁進。
多語言支持：支持韓語和英語兩種語言。

📦 安裝指南

文檔未提供安裝步驟，暫無法展示。

💻 使用示例

基礎用法

以下是模型的示例輸出：

# Image1
Q: 해당 이미지를 설명해주세요.
HiLLaVA: 이 이미지에는 풀밭을 가로질러 걷고 있는 흑백 고양이 두 마리가 등장합니다. 한 마리는 왼쪽에, 다른 한 마리는 오른쪽에 있습니다. 두 고양이는 서로 가까이 붙어 있으며, 한 마리는 다른 고양이보다 약간 앞서 걷고 있는 것처럼 보입니다. 고양이 중 한 마리가 다른 고양이보다 약간 작아 보이는데, 이는 나이 차이를 나타내는 것일 수 있습니다. 고양이들은 풀밭을 가로질러 함께 이동하면서 장난스럽게 상호작용하는 것처럼 보입니다.

# Image2
Q: 어떤 동물이 보이나요?
HiLLaVA: 이미지 속 동물은 호랑이입니다.

# Image3
Q: 해당 건축물은 무엇인가요?
HiLLaVA: 해당 건축물은 파리, 프랑스에 위치한 유명한 랜드마크인 에펠탑입니다.

# Image4
Q: 대형 상업용 비행기가 있는 영역의 바운딩 박스 좌표를 알려주세요:
HiLLaVA: 이 이미지는 공항 활주로에서 이륙을 준비하는 대형 상업용 비행기의 모습을 보여줍니다. 비행기는 활주로 중앙 근처에 위치하여 이륙을 준비하고 있습니다. 활주로 주변에는 여러 대의 차량이 흩어져 있으며, 일부는 비행기와 가깝게, 다른 차량은 멀리 떨어져 있습니다. 이 차량들은 비행기가 이륙할 준비를 하는 동안 비행기를 지원하는 지상 서비스 차량일 가능성이 높습니다. 이 장면은 비행기가 이륙을 준비하는 공항의 분주한 분위기를 포착합니다.
Q: [0.44, 0.47, 0.55, 0.56]

高級用法

文檔未提供高級用法示例，暫無法展示。

📚 詳細文檔

數據集

本模型使用了LLaVA架構，並通過“openai/clip - vit - large - patch14 - 336”視覺模型和“meta - llama/Meta - Llama - 3.1 - 8B - Instruct”語言模型進行了微調。訓練過程中使用的數據集包括LLaVA Visual Instruct Pretrain LCS - 558K和LLaVA Visual Instruct 150K數據集，這些數據集有助於模型將視覺特徵與指令跟隨任務對齊，推動其向GPT - 4水平的多模態能力發展。

許可信息

使用或分發此模型時，必須遵守以下許可規定：

LLaVA Visual Instruct Pretrain LCS - 558K：該數據集包含來自LAION/CC/SBU數據集的圖像和字幕以及BLIP生成的字幕。用戶必須遵守與CC - 3M和BLIP相關的許可規定。CC - 3M數據集可在適當註明Google LLC版權的情況下免費使用，但該數據集按“原樣”提供，不提供任何保證。
LLaVA Visual Instruct 150K：此數據集根據知識共享署名4.0國際許可協議發佈。此外，由於該數據集是使用GPT - 4 API生成的，用戶必須遵守OpenAI的使用條款。在分發或使用模型時，務必包含這些許可詳細信息，以確保遵守原始數據源的條款。

關於我們

Hancom InSpace是一家在航空航天、航空和地面系統技術領域處於領先地位的先鋒公司。公司成立於2012年，不斷發展壯大，成為太空和無人機行業的重要參與者。公司總部位於韓國大田，專注於提供全面的衛星和無人機解決方案，包括衛星地面站、人工智能驅動的圖像分析和全自動無人機操作。

Hancom InSpace以其在太空探索和衛星技術方面的創新貢獻而聞名。公司發射了韓國第一顆私人地球觀測衛星世宗一號，這標誌著新太空時代的一個重要里程碑。其先進的服務範圍從即時衛星圖像分析到衛星地面站尖端軟件的開發，所有這些都獲得了韓國政府的認證。

在航空領域，公司的專業知識涵蓋了無人機的設計和製造，這些無人機集成了專有控制系統和人工智能能力。這些無人機可用於多種用途，從精準農業到監視，為民用和軍事需求提供了最先進的技術解決方案。

隨著公司不斷創新，我們很高興將語言模型（LLM）開源，讓全球社區能夠利用和拓展我們的前沿人工智能技術。這一舉措體現了我們對合作以及推動人工智能研發的承諾。歡迎您探索我們的開源LLM，與我們一起突破技術的界限。

如需瞭解更多關於我們公司和我們提供的服務的信息，請訪問我們的網站www.inspace.co.kr。

引用

@misc{
      title={HiLLaVA-llama3.1: Hancom Inspace Large Language and Vision Assistant},
      author={JoChanho},
      url={https://github.com/InSpaceAI/HiLLaVA-llama3.1},
      year={2024}
}