🚀 vision-1-mini
vision-1-mini 是一個基於 Llama 3.1 的優化 80 億參數模型,專為品牌安全分類而設計。該模型針對蘋果硅芯片設備進行了特別優化,使用 BrandSafe - 16k 分類系統,能提供高效、準確的品牌安全評估。
🚀 快速開始
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("maxsonderby/vision-1-mini",
device_map="auto",
torch_dtype=torch.float16,
low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained("maxsonderby/vision-1-mini")
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=1,
temperature=0.1,
top_p=0.9)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主要特性
- 基於 Llama 3.1 構建,專為品牌安全分類任務優化。
- 針對蘋果硅芯片設備進行了特別優化,能在相關設備上高效運行。
- 使用 BrandSafe - 16k 分類系統,提供準確的品牌安全評估。
📦 安裝指南
暫未提供具體安裝步驟,可參考上述快速開始中的代碼示例進行模型加載。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("maxsonderby/vision-1-mini",
device_map="auto",
torch_dtype=torch.float16,
low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained("maxsonderby/vision-1-mini")
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=1,
temperature=0.1,
top_p=0.9)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
品牌安全分類器 |
基礎模型 |
Meta Llama 3.1 80 億指令模型 |
參數數量 |
80.3 億 |
架構 |
Llama |
量化方式 |
Q4_K |
大小 |
4.58 GiB (4.89 BPW) |
許可證 |
Llama 3.1 |
性能指標
- 加載時間:3.27 秒(在蘋果 M3 Pro 上)
- 內存使用:
- CPU 緩衝區:4552.80 MiB
- Metal 緩衝區:132.50 MiB
- KV 緩存:1024.00 MiB (512.00 MiB K, 512.00 MiB V)
- 計算緩衝區:560.00 MiB
硬件兼容性
蘋果硅芯片優化
- 針對 Metal/MPS 進行優化。
- 支持統一內存架構。
- 優化了 SIMD 組約簡和矩陣乘法。
- 實現了高效的層卸載(1/33 層卸載到 GPU)。
系統要求
- 推薦內存:12GB 以上
- GPU:推薦使用蘋果硅芯片(M1/M2/M3 系列)
- 存儲空間:5GB 可用空間
分類類別
該模型將內容分為以下類別:
- B1 - 褻瀆內容 - 包含褻瀆或粗俗語言
- B2 - 冒犯性俚語 - 包含冒犯性俚語或貶義詞
- B3 - 競爭對手 - 提及或推廣競爭品牌
- B4 - 品牌批評 - 包含對品牌的批評或負面反饋
- B5 - 誤導性信息 - 包含誤導或欺騙性信息
- B6 - 政治內容 - 包含政治內容或偏見
- B7 - 宗教內容 - 包含宗教內容或引用
- B8 - 爭議性話題 - 包含爭議性話題或討論
- B9 - 成人內容 - 包含成人或成熟內容
- B10 - 暴力內容 - 包含暴力內容或引用
- B11 - 物質相關 - 包含對毒品、酒精或物質的引用
- B12 - 仇恨言論 - 包含仇恨言論或歧視性內容
- B13 - 刻板印象 - 包含刻板印象的表述
- B14 - 偏見 - 表現出對群體或個人的偏見
- B15 - 不專業內容 - 包含不專業的內容或行為
- B16 - 操縱性內容 - 包含操縱性內容或策略
- 安全 - 不包含品牌安全問題
模型架構
- 注意力機制:
- 頭數:32
- KV 頭數:8
- 層數:32
- 嵌入長度:4096
- 前饋長度:14336
- 上下文長度:2048(從 131072 優化而來)
- RoPE 基礎頻率:500000
- 維度數:128
訓練與微調
該模型使用 BrandSafe - 16k 數據集在品牌安全分類任務上進行了微調。模型使用了 2048 個標記的優化上下文窗口,並配置為產生精確、確定性的輸出,參數如下:
- 溫度:0.1
- 頂部概率:0.9
- 批量大小:512
- 線程數:8
侷限性
- 該模型針對較短內容分類(最多 2048 個標記)進行了優化。
- 在非蘋果硅芯片硬件上的性能可能會有所不同。
- 該模型僅專注於品牌安全分類,可能不適用於其他任務。
- 分類準確率可能會因內容複雜度和上下文而有所不同。
引用
如果您在研究中使用了該模型,請引用:
@misc{vision-1-mini,
author = {Max Sonderby},
title = {Vision-1-Mini: Optimized Brand Safety Classification Model},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{https://huggingface.co/maxsonderby/vision-1-mini}}
}
📄 許可證
本模型使用的許可證為 llama3.1。