🚀 FlashVL-2B-Dynamic-ISS
FlashVL是一種優化視覺語言模型(VLMs)以用於即時應用的新方法,旨在實現超低延遲和高吞吐量,同時不犧牲準確性。它通過先進的架構增強和高效的計算策略,在多個視覺語言基準測試中保持競爭力的同時,減少處理時間以最大化吞吐量。
🚀 快速開始
環境搭建
pip install torch==2.1.2
pip install transformers==4.50.0.dev0
使用方法
import torch
from PIL import Image
import requests
from io import BytesIO
from transformers import AutoModel, AutoTokenizer, CLIPImageProcessor
model_path = "FlashVL/FlashVL-2B-Dynamic-ISS"
model = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16,trust_remote_code=True,device_map='cuda')
model.tokenizer = AutoTokenizer.from_pretrained(model_path,device_map='cuda')
model.im_trans = CLIPImageProcessor.from_pretrained(model_path)
image_url ="https://s3plus.meituan.net/automl-datasets/mlm/0516.png"
response = requests.get(image_url)
image_data = BytesIO(response.content)
pil_image = Image.open(image_data).convert('RGB')
messages = [{'role': 'user', 'content': "生成圖中菜品的菜譜"}]
answer = model.chat(pil_image, messages, do_sample=False, max_new_tokens=256)
print(answer)
messages = [
{'role': 'user', 'content': '這是什麼'},
{"role": "assistant", "content": '這是一道看起來像是銀耳蓮子湯的甜品。\
銀耳是一種常見的食材,通常用於製作甜品和湯品,具有軟糯的口感和清潤的口感。蓮 \
子是蓮子的乾燥部分,常用於中醫和食療中,具有補脾止瀉的功效。圖片中還可以看到 \
一些枸杞和核桃,枸杞富含維生素和抗氧化物質,核桃則提供豐富的蛋白質和健康脂肪。 \
整體來看,這道甜品不僅美味,還具有一定的營養價值。'},
{'role': 'user', 'content': '對圖中菜品卡路里分析'}
]
answer = model.chat(pil_image, messages, do_sample=False, max_new_tokens=256)
print(answer)
messages = [{'role': 'user', 'content': "who are you"}]
answer = model.chat(None, messages, do_sample=False, max_new_tokens=256)
print(answer)
✨ 主要特性
我們很高興推出 FlashVL,這是一種針對即時應用優化視覺語言模型(VLMs)的新方法,目標是在不犧牲準確性的前提下實現超低延遲和高吞吐量。Flash-VL 2B 利用先進的架構增強和高效的計算策略,通過減少處理時間來最大化吞吐量,同時在多個視覺語言基準測試中保持有競爭力的性能。我們的方法包括量身定製的架構選擇、令牌壓縮機制、數據整理、訓練方案,以及一種名為隱式語義拼接的新型圖像處理技術,該技術能有效平衡計算負載和模型性能。通過在 11 個標準 VLM 基準測試上的廣泛評估,我們證明了 Flash-VL 2B 在速度和準確性方面都取得了最先進的成果,使其成為在資源受限環境和大規模即時應用中部署的有前景的解決方案。
📚 詳細文檔
評估
基準測試 |
Qwen2-VL-2B |
Aquila-VL-2B |
InternVL2.5-2B |
Flash-VL-2Bs |
Flash-VL-2Bd |
Flash-VL-2Bd-ISS |
MMMUval |
41.9 |
44.4 |
41.8 |
43.6 |
42.9 |
42.9 |
MMBenchen |
74.9 |
78.6 |
74.7 |
78.4 |
78.4 |
79.1 |
MMBenchcn |
73.5 |
76.3 |
71.6 |
74.7 |
74.9 |
76.7 |
MMStar |
48.0 |
54.9 |
54.1 |
53.8 |
54.4 |
54.1 |
MathVistatestmini |
43.0 |
59.4 |
50.9 |
59.3 |
58.1 |
61.5 |
AI2Dtest |
74.1 |
75.0 |
75.1 |
74.2 |
74.1 |
74.4 |
MMVet |
49.5 |
40.9 |
61.7 |
47.3 |
52.7 |
50.7 |
HallusionBench |
39.2 |
38.5 |
42.7 |
43.5 |
45.5 |
49.0 |
OCRBench |
794 |
773 |
800 |
764 |
831 |
843 |
MME |
1872 |
1813 |
2091 |
1715 |
1866 |
1850 |
SEEDBench |
71.5 |
78.9 |
73.2 |
73.6 |
73.6 |
74.5 |
平均值 |
60.2 |
62.6 |
63.6 |
62.4 |
64.0 |
64.8 |
我們使用 VLMEvalKit 來評估 FlashVL-2B-Static。
📄 許可證
本項目採用 Apache-2.0 許可證。
模型信息
屬性 |
詳情 |
模型類型 |
圖像文本到文本 |
訓練數據集 |
lmms-lab/LLaVA-OneVision-Data、BAAI/Infinity-MM |
基礎模型 |
apple/aimv2-huge-patch14-448、Qwen/Qwen2-1.5B-Instruct |
庫名稱 |
transformers |
支持語言 |
英文、中文 |
引用
如果您在研究中發現本項目有用,請考慮引用:
@misc{zhang2025flashvl2boptimizingvisionlanguage,
title={Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput},
author={Bo Zhang and Shuo Li and Runhe Tian and Yang Yang and Jixin Tang and Jinhao Zhou and Lin Ma},
year={2025},
eprint={2505.09498},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2505.09498},
}

[📜 FlashVL]