模型概述
模型特點
模型能力
使用案例
🚀 EraX-VL-7B-V1.5
EraX-VL-7B-V1.5是一款強大的多模態模型,專注於OCR(光學字符識別)和VQA(視覺問答)任務,尤其在越南語處理上表現出色。它能精準識別多種文檔,如醫療表格、發票等,適用於醫院、保險公司等場景。
✨ 主要特性
- 多語言支持:主要支持越南語,同時具備多語言處理能力。
- 精準識別:能準確識別多種文檔,包括醫療表格、發票、銷售賬單等。
- 多輪問答:具備強大的多輪問答和推理能力。
- 高性能表現:在基準測試中,相比同等規模甚至參數大10倍的模型,表現卓越,且已開源。
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 具有超過70億參數的多模態Transformer |
語言 (NLP) | 主要為越南語,具備多語言能力 |
許可證 | Apache 2.0 |
微調基礎模型 | Qwen/Qwen2-VL-7B-Instruct |
提示示例 | Github上的一些常用提示示例。 |
開發與資助信息
- 開發者:
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
- 資助方:Bamboo Capital Group 和 EraX
重要提示
⚠️ 重要提示
- EraX-VL-7B-V1.5不是像Tesseract那樣的典型OCR工具,而是基於多模態大語言模型的模型。為了有效使用它,你可能需要根據任務仔細調整提示。
- 該模型尚未使用醫療(X光)數據集或汽車事故數據集進行微調。請關注2025年初發布的更新版本。
🚀 快速開始
安裝必要的包:
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
然後你可以像這樣使用 EraX-VL-7B-V1.5
:
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax/EraX-VL-7B-V1.5"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
},
],
}
]
# Prepare prompt
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# Generation configs
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 1.0
generation_config.top_k = 1
generation_config.top_p = 0.9
generation_config.min_p = 0.1
generation_config.best_of = 5
generation_config.max_new_tokens = 2048
generation_config.repetition_penalty = 1.06
# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text[0])
📊 基準測試
🏆 排行榜
EraX-VL-7B-V1.5與同等規模甚至參數大10倍的其他模型相比,表現極為出色,並且我們將其開源!你可以隨時重新運行基準測試。
模型 | 開源情況 | VI-MTVQA得分 |
---|---|---|
EraX-VL-7B-V1.5 🥇 | ✅ | 47.2 |
Qwen2-VL 72B 🥈 | ✘ | 41.6 |
ViGPT-VL 🥉 | ✘ | 39.1 |
EraX-VL-2B-V1.5 | ✅ | 38.2 |
EraX-VL-7B-V1 | ✅ | 37.6 |
Vintern-1B-V2 | ✅ | 37.4 |
Qwen2-VL 7B | ✅ | 30.0 |
Claude3 Opus | ✘ | 29.1 |
GPT-4o mini | ✘ | 29.1 |
GPT-4V | ✘ | 28.9 |
Gemini Ultra | ✘ | 28.6 |
InternVL2 76B | ✅ | 26.9 |
QwenVL Max | ✘ | 23.5 |
Claude3 Sonnet | ✘ | 20.8 |
QwenVL Plus | ✘ | 18.1 |
MiniCPM-V2.5 | ✅ | 15.3 |
論文中評估模型的測試代碼可在:EraX-JS-Company/EraX-MTVQA-Benchmark 找到。
🎉 API試用
如需API訪問,請聯繫 nguyen@erax.ai。
💻 使用示例
1. OCR - 多圖像光學字符識別
示例01: 身份證

正面視圖

背面視圖
來源: Google Support
{
"Số thẻ": "037094012351",
"Họ và tên": "TRỊNH QUANG DUY",
"Ngày sinh": "04/09/1994",
"Giới tính": "Nam",
"Quốc tịch": "Việt Nam",
"Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
"Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
"Có giá trị đến": "04/09/2034",
"Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
"Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
"Ngày cấp": "10/12/2022",
"Cán bộ ký tên": "Nguyễn Quốc Hùng",
"Mã định danh": "IDVNM0940123513037094012351"
}
示例02: 駕駛證

正面視圖

背面視圖
來源: Báo Pháp luật
{
"No.":"400116012313",
"Fullname":"NGUYỄN VĂN DŨNG",
"Date_of_birth":"08/06/1979",
"Nationality":"VIỆT NAM",
"Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
"Hang_Class":"FC",
"Expires":"23/04/2027",
"Place_of_issue":"Nghệ An",
"Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022",
"Signer":"Trần Anh Tuấn",
"Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)",
"Mã số":""
}
示例03: 車輛登記證

來源: Báo Vietnamnet
{
"Tên chủ xe": "NGUYỄN TÔN NHUẬN",
"Địa chỉ": "KE27 Kp3 P.TTTây Q7",
"Nhãn hiệu": "HONDA",
"Số loại": "DYLAN",
"Màu sơn": "Trắng",
"Năm sản xuất": "2012",
"Số máy": "F03E-0057735",
"Số khung": "SA04F-070410",
"Dung tích": "152",
"Số chỗ ngồi": "02",
"Biển số đăng ký": "59V1-498.89",
"Đăng ký lần đầu ngày": "08/06/2004",
"Chức vụ": "Thượng tá",
"Người ký": "Trần Văn Hiểu"
}
示例04: 車輛登記

{
"vehicle": {
"registration_number": "30A-072.36",
"vehicle_inspection_number": "2903V-093515",
"type": "ô tô con",
"mark": "MERCEDES-BENZ",
"model_code": "C300 W204",
"engine_number": "27294732096079",
"chassis_number": "RLMGF5EX3DV005333",
"manufactured_year_and_country": "2013, Việt Nam",
"life_time_limit_to": "",
"commercial_use": "",
"modification": ""
},
"specifications": {
"wheel_formula": "4x2",
"wheel_tread": "1521/1512 (mm)",
"overall_dimension": "4650 x 1770 x 1429 (mm)",
"largest_luggage_container_dimension": "",
"wheelbase": "2760 (mm)",
"kerb_mass": "1575 (kg)",
"design_authorized_pay_load": "",
"design_authorized_total_mass": "2090/2090 (kg)",
"design_authorized_towed_mass": "",
"permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
"type_of_fuel_used": "Xăng",
"engine_displacement": "2996 (cm3)",
"max_output_per_rpm": "170(kW)/6000vph",
"number": "KC-1292285"
},
"inspection_report_number": "2905V-20953/16",
"valid_until": "31/01/2018",
"place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
"inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
"signature": "Ngọc Tuấn",
"equipped_with_tachograph": "",
"inspection_stamp_was_not_issued": "",
"notes": "Biển đăng ký nền trắng"
}
示例05: 收據

{
'Mẫu số': '01GKTKT3/001',
'Ký hiệu': 'TC/18P',
'Số': '0000030',
'Họ tên người mua hàng': None,
'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội',
'Mã số thuế': '0106235869',
'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội',
'Hình thức thanh toán': 'TM',
'STT': None,
'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến',
'Đơn vị tính': None,
'Số lượng': None,
'Đơn giá': '168.000',
'Thành tiền': '2.016.000',
'Thuế suất GTGT': None,
'Tiền thuế GTGT': None,
'Tổng cộng tiền thanh toán': '2.016.000',
'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng',
'Người bán hàng': 'Bùi Văn Hùng',
'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
}
2.1 圖像描述

該圖像是一個按年齡劃分的BMI圖表,展示了兒童身體質量指數(BMI)與年齡之間的關係。圖表被劃分為不同顏色的區域,對應不同的BMI水平:
- 紅色區域:BMI指數高於25,表示肥胖狀況。
- 黃色區域:BMI指數在18到25之間,表示有肥胖風險。
- 淺綠色區域:BMI指數在16到18之間,表示營養健康狀況良好。
- 深綠色區域:BMI指數低於16,表示體重不足狀況。
縱軸表示BMI指數,橫軸表示年齡(以年為單位)。深灰色曲線表示按年齡劃分的BMI標準線。這些曲線展示了BMI隨時間的變化,有助於評估兒童體重的發展情況。例如,3歲以下的兒童,BMI通常在體重不足或營養健康良好的範圍內波動。隨著兒童長大,BMI有逐漸增加的趨勢,但增長速度可能因個體而異。圖表還顯示了百分位數(Percentile),表示與同年齡組兒童相比,BMI較低或較高的兒童比例。這有助於將兒童的BMI與國際標準進行比較。
2.2 圖像描述
.jpg)
這幅圖像捕捉到了一個充滿情感和悲傷的場景,似乎發生在一個貧困地區,可能是一個定居點或貧民窟。圖像的中心是一輛由一頭驢拉著的手推車。手推車上有一群人,包括一位看起來像是嚮導的年長男子、一位穿著黑色外套的婦女、一位穿著灰色衣服的年輕婦女、一個用頭巾遮住臉的小女孩和一個穿著綠色衣服的小男孩。他們似乎正在從一個被破壞的地區轉移到另一個地方。他們周圍是碎片、垃圾和倒塌的建築物,顯示出一個艱難和匱乏的生活環境。在他們身後,有一些人正在步行或騎自行車,一些人還帶著行李。天空湛藍,但整個圖像的氣氛沉重而悲傷。這可能是一個移民、避難或其他悲慘事件的場景。
3. 多輪視覺問答與推理

- 用戶:請提供患者信息
- 助手:姓名:NGUYỄN THỊ THÁI TRINH,出生日期:09/09/1993,性別:女,地址:TÂN ĐỊNH - Q1 - TPHCM,醫保卡號:19169080,病歷號:2569501,區域代碼(K1/K2/K3):2
- 用戶:她被診斷出患有什麼疾病?
- 助手:腸道細菌感染,未確定菌種
- 用戶:患者有既往病史嗎?如果有,是什麼?
- 助手:飲食導致的鈣缺乏
- 用戶:患者進行了哪些檢查?
- 助手:[NQ286] 外周血細胞總體分析(通過激光計數儀),[NQ286] 電解質圖譜(鈉、鉀、氯)[血液],[NQ286] 谷丙轉氨酶(GPT)活性測定 [血液],[NQ286] 穀草轉氨酶(GOT)活性測定 [血液],[NQ286] 全鈣定量 [血液],[NQ286] 肌酐定量 [血液],[NQ286] 葡萄糖定量 [血液],[NQ286] 血尿素定量 [血液],[NQ286] 腹部超聲(肝臟、膽囊、胰腺、脾臟、腎臟、膀胱)
- 用戶:患者需要支付的醫療用品費用是多少?
- 助手:19,708
- 用戶:患者需要支付的藥品和輸液費用是哪些,總費用是多少?
- 助手:Atropin Sulfat (Syv2019)、Bicefzidim 1g (Syv2019)、GONCAL (Syv2019)、Lactated Ringer's - 500ml (Syv2019)、Nước cất pha tiêm 5ml (Syv2019)、Sodium Chloride 0.9% - 500ml (Syv2019)、Vincomid (Syv2019)、Vinopa (Syv2019),總計45,234越南盾
📚 詳細文檔
參考文獻
[1] Qwen team. Qwen2-VL. 2024. [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023). [4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024). [5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. [6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024). [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
🤝 聯繫我們
- 有關這項工作的通信或API試用諮詢,請聯繫 Nguyễn Anh Nguyên,郵箱:nguyen@erax.ai。
- 關注我們的 EraX Github。








