ホーム

Otpensource Vision

hateslopacademyによって開発

Bllossom/llama-3.2-Korean-Bllossom-AICA-5Bをベースに訓練された視覚言語モデルで、韓国語と英語をサポートし、ファッション分野の画像からテキストへの変換やテキスト分類タスクに特化しています。

画像生成テキスト

Transformers

複数言語対応#韓英視覚言語 #ファッション画像分析 #マルチモーダルJSON出力

ダウンロード数 14

リリース時間 : 1/25/2025

モデル概要

otpensource-visionは視覚と言語能力を組み合わせたマルチモーダルモデルで、画像中のファッション要素を分析し構造化されたテキスト記述を生成できると同時に、純粋なテキストの自然言語処理タスクもサポートします。

モデル特徴

多言語視覚理解

韓国語と英語の視覚言語処理をサポートし、画像からファッション関連情報を抽出可能

ファッション分野最適化

専門的なファッションデータセットで訓練されており、服装カテゴリ、色、季節などのファッション要素の分析に優れる

構造化出力

JSON形式の構造化出力を生成可能で、システム統合やさらなる処理が容易

商用フレンドリーライセンス

CC-BY-4.0ライセンスを採用しており、商用利用が許可されている

モデル能力

画像からテキストへ

ファッション要素分析

多言語テキスト生成

感情分析

テキスト分類

使用事例

電子商取引

商品自動タグ付け

商品画像を自動分析し、カテゴリ、色などの情報を含む構造化された記述を生成

JSON形式の商品情報を生成可能

ファッション推薦システム

視覚分析に基づき、ユーザーにスタイルが合うファッションアイテムを推薦

コンテンツ生成

ソーシャルメディアコンテンツ作成

ファッション画像に基づき記述的なテキストコンテンツを自動生成

🚀 otpensource-vision

otpensource-visionは、画像とテキストを組み合わせて様々なタスクを実行できるVision-Languageモデルです。韓国語と英語のテキストと画像を活用し、多言語環境での使用に最適化されています。

🚀 クイックスタート

このセクションでは、otpensource-visionモデルの概要と主な機能について説明します。

✨ 主な機能

Bllossomベースの学習: llama-3.2-Korean-Bllossom-AICA-5Bをベースに学習されたモデルで、言語モデルとビジョン言語モデルの両方の利点を兼ね備えています。
Vision-Languageタスクのサポート: 画像を入力として受け取り、テキスト情報を生成することができます。また、テキストのみの入力で自然言語処理タスクを実行することも可能です。
ファッションデータを用いた学習: 韓国語のファッションデータセット(otpensource_data)を使用して、衣服のカテゴリ、色、季節、特徴などの関連情報を抽出するように学習されています。
商用利用可能: ライセンスはCC-BY-4.0で、商用利用が可能です。

📦 インストール

このドキュメントには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests

model = MllamaForConditionalGeneration.from_pretrained(
  'otpensource-vision',
  torch_dtype=torch.bfloat16,
  device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')

url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)

messages = [
  {'role': 'user', 'content': [
    {'type': 'image', 'image': image},
    {'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
  ]}
]

input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = processor(
    image=image,
    text=input_text,
    add_special_tokens=False,
    return_tensors="pt",
).to(model.device)

output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))

高度な使用法

このドキュメントには高度な使用法の説明が記載されていないため、このサブセクションを省略します。

📚 ドキュメント

モデルの詳細

学習データ

モデルの学習に使用されたデータセットは以下の通りです。

otpensource_dataset:
- 約9000件のファッションデータで構成されています。
- 衣服のカテゴリ、色、季節、特徴、画像URLなどを含み、Vision-Languageの学習に最適化されています。

学習方法

ベースモデル: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
GPU要件: A100 40GB以上を推奨します。
最適化: Vision-Languageタスクと韓国語テキストタスクを統合的に学習しています。

主な使用事例

Vision-Languageタスク

画像分析

入力された画像から衣服のカテゴリ、色、季節、特徴を抽出し、JSON形式で返します。

例:

{
  "category": "트렌치코트",
  "gender": "여",
  "season": "SS",
  "color": "네이비",
  "material": "",
  "feature": "트렌치코트"
}

言語モデルタスク
- テキストのみを入力した場合、自然言語処理を実行し、質問応答、テキスト要約、感情分析などの様々なタスクを実行できます。

学習と性能

LogicKorベンチマークの性能 (Bllossomベースのモデル性能)

カテゴリ	シングルターン	マルチターン
推論	6.57	5.29
数学	6.43	6.29
文章作成	9.14	8.71
コーディング	8.00	9.14
理解	8.14	9.29
文法	6.71	4.86

学習構成

モデルサイズ: 5Bパラメータ
学習データサイズ: 約9000件のビジョン言語データ
評価結果: ファッション関連のタスクで高い精度と効率を提供します。

🔧 技術詳細

このドキュメントには具体的な技術的詳細が記載されていないため、このセクションを省略します。

📄 ライセンス

このモデルのライセンスはCC-BY-4.0です。

アップロードされたファインチューニング済みモデル

開発者: hateslopacademy
ライセンス: apache-2.0
ファインチューニング元のモデル: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B

このmllamaモデルは、UnslothとHuggingfaceのTRLライブラリを使用して2倍速で学習されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご