otpensource-vision開源視覺語言模型 - 支持韓英雙語，用於時尚圖像轉文本與分類

首頁

Otpensource Vision

由hateslopacademy開發

基於Bllossom/llama-3.2-Korean-Bllossom-AICA-5B訓練的視覺語言模型，支持韓語和英語，專注於時尚領域的圖像轉文本和文本分類任務。

圖像生成文本

Transformers

支持多種語言#韓英視覺語言 #時尚圖像分析 #多模態JSON輸出

下載量 14

發布時間 : 1/25/2025

模型概述

otpensource-vision是一個結合視覺和語言能力的多模態模型，能夠分析圖像中的時尚元素並生成結構化文本描述，同時支持純文本的自然語言處理任務。

模型特點

多語言視覺理解

支持韓語和英語的視覺語言處理，能夠從圖像中提取時尚相關信息

時尚領域優化

使用專業時尚數據集訓練，擅長分析服裝類別、顏色、季節等時尚元素

結構化輸出

能夠生成JSON格式的結構化輸出，便於系統集成和進一步處理

商業友好許可

採用CC-BY-4.0許可證，允許商業用途

模型能力

圖像轉文本

時尚元素分析

多語言文本生成

情感分析

文本分類

使用案例

電子商務

商品自動標註

自動分析商品圖片並生成包含類別、顏色等信息的結構化描述

可生成JSON格式的商品信息

時尚推薦系統

基於視覺分析為用戶推薦風格匹配的時尚單品

內容生成

社交媒體內容創作

根據時尚圖片自動生成描述性文字內容

🚀 開源視覺模型（otpensource-vision）

開源視覺模型（otpensource-vision） 是一款基於 Bllossom/llama-3.2-Korean-Bllossom-AICA-5B 訓練的視覺語言模型。該模型旨在結合韓語和英語文本與圖像，以執行各種任務。

✨ 主要特性

基於Bllossom訓練：此模型基於 llama-3.2-Korean-Bllossom-AICA-5B 進行訓練，兼具語言模型和視覺語言模型的優勢。
支持視覺語言任務：它既可以接收圖像輸入並生成文本信息，也能僅通過文本輸入執行自然語言處理任務。
利用時尚數據訓練：使用韓語時尚數據集（otpensource_data）進行訓練，能夠提取服裝的類別、顏色、季節、特徵等相關信息。
可商業使用：該模型採用 CC - BY - 4.0 許可證，允許商業使用。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests

model = MllamaForConditionalGeneration.from_pretrained(
  'otpensource-vision',
  torch_dtype=torch.bfloat16,
  device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')

url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)

messages = [
  {'role': 'user', 'content': [
    {'type': 'image', 'image': image},
    {'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
  ]}
]

input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = processor(
    image=image,
    text=input_text,
    add_special_tokens=False,
    return_tensors="pt",
).to(model.device)

output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))

📚 詳細文檔

模型詳細信息

屬性	詳情
模型類型	基於 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 的視覺語言模型
訓練數據	otpensource_dataset，約 9000 個時尚數據，包含服裝類別、顏色、季節、特徵、圖像 URL 等信息

主要使用場景

視覺語言任務
- 圖像分析：輸入圖像後，可提取服裝的類別、顏色、季節、特徵等信息，並以 JSON 格式返回。例如：

{
  "category": "트렌치코트",
  "gender": "여",
  "season": "SS",
  "color": "네이비",
  "material": "",
  "feature": "트렌치코트"
}

- **語言模型任務**：僅輸入文本時，可執行自然語言處理任務，如問答、文本摘要、情感分析等。

訓練與性能

LogicKor 基準測試性能（基於 Bllossom 的模型性能） | 類別 | 單輪對話 | 多輪對話 | |------|----------|----------| | 推理能力 | 6.57 | 5.29 | | 數學能力 | 6.43 | 6.29 | | 寫作能力 | 9.14 | 8.71 | | 編碼能力 | 8.00 | 9.14 | | 理解能力 | 8.14 | 9.29 | | 語法能力 | 6.71 | 4.86 |
訓練配置
- 模型大小：50 億參數
- 訓練數據大小：約 9000 個視覺語言數據
- 評估結果：在時尚相關任務中表現出較高的準確性和效率。

🔧 技術細節

文檔未提供足夠技術細節，暫不展示。

📄 許可證

該模型採用 CC - BY - 4.0 許可證，允許商業使用。此外，上傳的微調模型由 hateslopacademy 開發，採用 apache - 2.0 許可證，基於 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 進行微調。此 mllama 模型使用 Unsloth 和 Huggingface 的 TRL 庫進行訓練，速度提升了 2 倍。