🚀 vision-1-mini
Vision-1-miniは、Llama 3.1に基づく最適化された80億パラメータのモデルで、ブランドセーフティ分類に特化して設計されています。このモデルは、Apple Siliconデバイス向けに特に最適化されており、BrandSafe-16k分類システムを使用して効率的かつ正確なブランドセーフティ評価を提供します。
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
ブランドセーフティ分類器 |
ベースモデル |
Meta Llama 3.1 8B Instruct |
パラメータ |
80.3億 |
アーキテクチャ |
Llama |
量子化 |
Q4_K |
サイズ |
4.58 GiB (4.89 BPW) |
ライセンス |
Llama 3.1 |
パフォーマンス指標
- ロード時間: 3.27秒 (Apple M3 Pro上)
- メモリ使用量:
- CPUバッファ: 4552.80 MiB
- Metalバッファ: 132.50 MiB
- KVキャッシュ: 1024.00 MiB (512.00 MiB K, 512.00 MiB V)
- 計算バッファ: 560.00 MiB
ハードウェア互換性
Apple Silicon最適化
- Metal/MPS向けに最適化
- 統一メモリアーキテクチャのサポート
- SIMDグループ削減と行列乗算の最適化
- 効率的なレイヤーオフロード (1/33レイヤーをGPUに)
システム要件
- 推奨メモリ: 12GB以上
- GPU: Apple Siliconが推奨 (M1/M2/M3シリーズ)
- ストレージ: 5GBの空き容量
分類カテゴリ
このモデルは、コンテンツを以下のカテゴリに分類します:
- B1-不適切な言葉 - 不適切または下品な言葉を含む
- B2-攻撃的なスラング - 攻撃的なスラングまたは侮辱的な用語を含む
- B3-競合ブランド - 競合ブランドを言及または宣伝する
- B4-ブランド批判 - ブランドに関する批判または否定的なフィードバックを含む
- B5-誤解を招く情報 - 誤解を招くまたは欺瞞的な情報を含む
- B6-政治的内容 - 政治的な内容または偏見を含む
- B7-宗教的内容 - 宗教的な内容または言及を含む
- B8-論争的なトピック - 論争的なトピックまたは議論を含む
- B9-成人向け内容 - 成人または成熟した内容を含む
- B10-暴力的内容 - 暴力的な内容または言及を含む
- B11-薬物関連 - 薬物、アルコールまたは物質に関する言及を含む
- B12-憎しみの言葉 - 憎しみの言葉または差別的な内容を含む
- B13-ステレオタイプ - ステレオタイプ的な表現を含む
- B14-偏見 - グループまたは個人に対する偏見を示す
- B15-非プロフェッショナルな内容 - 非プロフェッショナルな内容または行動を含む
- B16-操作的な内容 - 操作的な内容または戦術を含む
- 安全 - ブランドセーフティ上の懸念事項を含まない
モデルアーキテクチャ
- アテンションメカニズム:
- ヘッド数: 32
- KVヘッド数: 8
- レイヤー数: 32
- 埋め込み長: 4096
- フィードフォワード長: 14336
- コンテキスト長: 2048 (131072から最適化)
- RoPE基本周波数: 500000
- 次元数: 128
トレーニングとファインチューニング
このモデルは、BrandSafe-16kデータセットを使用してブランドセーフティ分類タスクに対してファインチューニングされています。モデルは2048トークンの最適化されたコンテキストウィンドウを使用し、以下の設定で正確で決定論的な出力が得られるように構成されています:
- 温度: 0.1
- Top-p: 0.9
- バッチサイズ: 512
- スレッド数: 8
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("maxsonderby/vision-1-mini",
device_map="auto",
torch_dtype=torch.float16,
low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained("maxsonderby/vision-1-mini")
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=1,
temperature=0.1,
top_p=0.9)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
📄 ライセンス
このモデルのライセンスは、Llama 3.1です。
📖 引用
もしあなたがこのモデルを研究で使用する場合は、以下のように引用してください:
@misc{vision-1-mini,
author = {Max Sonderby},
title = {Vision-1-Mini: Optimized Brand Safety Classification Model},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{https://huggingface.co/maxsonderby/vision-1-mini}}
}