EraX-VL-7B-V1.5開源多模態模型 - 免費部署支持OCR與多語視覺問答，越南語尤佳

首頁

Erax VL 7B V1.5

由mxw1998開發

EraX-VL-7B-V1.5是一款強大的多模態模型，專精於光學字符識別（OCR）和視覺問答（VQA），在多語言環境下表現卓越，尤其擅長越南語。

圖像生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #越南語OCR專家 #多模態醫療文檔處理 #多輪視覺推理

下載量 26

發布時間 : 4/23/2025

模型概述

基於Qwen/Qwen2-VL-7B-Instruct微調的多模態模型，擅長文檔識別、視覺問答和多輪推理，特別優化了越南語處理能力。

模型特點

卓越的越南語OCR能力

針對越南語文檔（如醫療表格、發票、身份證等）進行了優化，識別精度高

多輪視覺問答

支持基於圖像的複雜多輪問答和推理

多語言支持

除越南語外，還支持英語和中文處理

開源模型

基於Apache 2.0許可證開源，可自由使用和修改

模型能力

文檔信息提取

圖像內容描述

多輪視覺問答

多語言文本識別

醫療表格處理

商業單據分析

使用案例

醫療健康

醫療處方識別

從醫療處方中提取患者信息、藥品清單和劑量

準確識別越南語醫療文檔中的關鍵信息

體檢報告分析

解析體檢報告中的各項指標和診斷結果

結構化輸出體檢數據

金融服務

發票處理

自動識別發票中的金額、稅號和商品信息

提高財務處理效率

身份驗證

從身份證件中提取個人信息

簡化KYC流程

政府服務

證件處理

處理各類政府證件如駕駛證、車輛登記證等

自動化證件信息錄入

🚀 EraX-VL-7B-V1.5

EraX-VL-7B-V1.5是一款強大的多模態模型，專注於OCR（光學字符識別）和VQA（視覺問答）任務，尤其在越南語處理上表現出色。它能精準識別多種文檔，如醫療表格、發票等，適用於醫院、保險公司等場景。

Logo

✨ 主要特性

多語言支持：主要支持越南語，同時具備多語言處理能力。
精準識別：能準確識別多種文檔，包括醫療表格、發票、銷售賬單等。
多輪問答：具備強大的多輪問答和推理能力。
高性能表現：在基準測試中，相比同等規模甚至參數大10倍的模型，表現卓越，且已開源。

模型信息

屬性	詳情
模型類型	具有超過70億參數的多模態Transformer
語言 (NLP)	主要為越南語，具備多語言能力
許可證	Apache 2.0
微調基礎模型	Qwen/Qwen2-VL-7B-Instruct
提示示例	Github上的一些常用提示示例。

開發與資助信息

開發者：
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
資助方：Bamboo Capital Group 和 EraX

重要提示

⚠️ 重要提示

EraX-VL-7B-V1.5不是像Tesseract那樣的典型OCR工具，而是基於多模態大語言模型的模型。為了有效使用它，你可能需要根據任務仔細調整提示。

該模型尚未使用醫療（X光）數據集或汽車事故數據集進行微調。請關注2025年初發布的更新版本。

🚀 快速開始

安裝必要的包：

python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation

然後你可以像這樣使用 EraX-VL-7B-V1.5：

import os
import base64
import json

import cv2
import numpy as np
import matplotlib.pyplot as  plt

import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model_path = "erax/EraX-VL-7B-V1.5"

model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
    device_map="auto"
)

tokenizer =  AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)

min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
     model_path,
     min_pixels=min_pixels,
     max_pixels=max_pixels,
 )

image_path ="image.jpg"

with open(image_path, "rb") as f:
    encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": base64_data,
            },
            {
                "type": "text",
                "text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
            },
        ],
    }
]

# Prepare prompt
tokenized_text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

image_inputs, video_inputs = process_vision_info(messages)

inputs = processor(
    text=[ tokenized_text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Generation configs
generation_config =  model.generation_config
generation_config.do_sample   = True
generation_config.temperature = 1.0
generation_config.top_k       = 1
generation_config.top_p       = 0.9
generation_config.min_p       = 0.1
generation_config.best_of     = 5
generation_config.max_new_tokens     = 2048
generation_config.repetition_penalty = 1.06

# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)

print(output_text[0])

📊 基準測試

🏆 排行榜

EraX-VL-7B-V1.5與同等規模甚至參數大10倍的其他模型相比，表現極為出色，並且我們將其開源！你可以隨時重新運行基準測試。

模型	開源情況	VI-MTVQA得分
EraX-VL-7B-V1.5 🥇	✅	47.2
Qwen2-VL 72B 🥈	✘	41.6
ViGPT-VL 🥉	✘	39.1
EraX-VL-2B-V1.5	✅	38.2
EraX-VL-7B-V1	✅	37.6
Vintern-1B-V2	✅	37.4
Qwen2-VL 7B	✅	30.0
Claude3 Opus	✘	29.1
GPT-4o mini	✘	29.1
GPT-4V	✘	28.9
Gemini Ultra	✘	28.6
InternVL2 76B	✅	26.9
QwenVL Max	✘	23.5
Claude3 Sonnet	✘	20.8
QwenVL Plus	✘	18.1
MiniCPM-V2.5	✅	15.3

論文中評估模型的測試代碼可在：EraX-JS-Company/EraX-MTVQA-Benchmark 找到。

🎉 API試用

如需API訪問，請聯繫 nguyen@erax.ai。

💻 使用示例

1. OCR - 多圖像光學字符識別

示例01: 身份證

正面視圖

背面視圖

來源: Google Support

{
    "Số thẻ": "037094012351",
    "Họ và tên": "TRỊNH QUANG DUY",
    "Ngày sinh": "04/09/1994",
    "Giới tính": "Nam",
    "Quốc tịch": "Việt Nam",
    "Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
    "Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
    "Có giá trị đến": "04/09/2034",
    "Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
    "Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
    "Ngày cấp": "10/12/2022",
    "Cán bộ ký tên": "Nguyễn Quốc Hùng",
    "Mã định danh": "IDVNM0940123513037094012351"
}

示例02: 駕駛證

正面視圖

背面視圖

來源: Báo Pháp luật

{
  "No.":"400116012313",
  "Fullname":"NGUYỄN VĂN DŨNG",
  "Date_of_birth":"08/06/1979",
  "Nationality":"VIỆT NAM",
  "Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
  "Hang_Class":"FC",
  "Expires":"23/04/2027",
  "Place_of_issue":"Nghệ An",
  "Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022",
  "Signer":"Trần Anh Tuấn",
  "Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)",
  "Mã số":""
}

示例03: 車輛登記證

來源: Báo Vietnamnet

{
    "Tên chủ xe": "NGUYỄN TÔN NHUẬN",
    "Địa chỉ": "KE27 Kp3 P.TTTây Q7",
    "Nhãn hiệu": "HONDA",
    "Số loại": "DYLAN",
    "Màu sơn": "Trắng",
    "Năm sản xuất": "2012",
    "Số máy": "F03E-0057735",
    "Số khung": "SA04F-070410",
    "Dung tích": "152",
    "Số chỗ ngồi": "02",
    "Biển số đăng ký": "59V1-498.89",
    "Đăng ký lần đầu ngày": "08/06/2004",
    "Chức vụ": "Thượng tá",
    "Người ký": "Trần Văn Hiểu"
}

示例04: 車輛登記

來源: https://llumar.com.vn

{
    "vehicle": {
        "registration_number": "30A-072.36",
        "vehicle_inspection_number": "2903V-093515",
        "type": "ô tô con",
        "mark": "MERCEDES-BENZ",
        "model_code": "C300 W204",
        "engine_number": "27294732096079",
        "chassis_number": "RLMGF5EX3DV005333",
        "manufactured_year_and_country": "2013, Việt Nam",
        "life_time_limit_to": "",
        "commercial_use": "",
        "modification": ""
    },
    "specifications": {
        "wheel_formula": "4x2",
        "wheel_tread": "1521/1512 (mm)",
        "overall_dimension": "4650 x 1770 x 1429 (mm)",
        "largest_luggage_container_dimension": "",
        "wheelbase": "2760 (mm)",
        "kerb_mass": "1575 (kg)",
        "design_authorized_pay_load": "",
        "design_authorized_total_mass": "2090/2090 (kg)",
        "design_authorized_towed_mass": "",
        "permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
        "type_of_fuel_used": "Xăng",
        "engine_displacement": "2996 (cm3)",
        "max_output_per_rpm": "170(kW)/6000vph",
        "number": "KC-1292285"
    },
    "inspection_report_number": "2905V-20953/16",
    "valid_until": "31/01/2018",
    "place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
    "inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
    "signature": "Ngọc Tuấn",
    "equipped_with_tachograph": "",
    "inspection_stamp_was_not_issued": "",
    "notes": "Biển đăng ký nền trắng"
}

示例05: 收據

來源: https://tintucketoan.com/

{
    'Mẫu số': '01GKTKT3/001', 
    'Ký hiệu': 'TC/18P', 
    'Số': '0000030', 
    'Họ tên người mua hàng': None, 
    'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội', 
    'Mã số thuế': '0106235869', 
    'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội', 
    'Hình thức thanh toán': 'TM', 
    'STT': None, 
    'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến', 
    'Đơn vị tính': None, 
    'Số lượng': None, 
    'Đơn giá': '168.000', 
    'Thành tiền': '2.016.000', 
    'Thuế suất GTGT': None, 
    'Tiền thuế GTGT': None, 
    'Tổng cộng tiền thanh toán': '2.016.000', 
    'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng', 
    'Người bán hàng': 'Bùi Văn Hùng', 
    'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
}

2.1 圖像描述

該圖像是一個按年齡劃分的BMI圖表，展示了兒童身體質量指數（BMI）與年齡之間的關係。圖表被劃分為不同顏色的區域，對應不同的BMI水平：

紅色區域：BMI指數高於25，表示肥胖狀況。
黃色區域：BMI指數在18到25之間，表示有肥胖風險。
淺綠色區域：BMI指數在16到18之間，表示營養健康狀況良好。
深綠色區域：BMI指數低於16，表示體重不足狀況。

縱軸表示BMI指數，橫軸表示年齡（以年為單位）。深灰色曲線表示按年齡劃分的BMI標準線。這些曲線展示了BMI隨時間的變化，有助於評估兒童體重的發展情況。例如，3歲以下的兒童，BMI通常在體重不足或營養健康良好的範圍內波動。隨著兒童長大，BMI有逐漸增加的趨勢，但增長速度可能因個體而異。圖表還顯示了百分位數（Percentile），表示與同年齡組兒童相比，BMI較低或較高的兒童比例。這有助於將兒童的BMI與國際標準進行比較。

2.2 圖像描述

這幅圖像捕捉到了一個充滿情感和悲傷的場景，似乎發生在一個貧困地區，可能是一個定居點或貧民窟。圖像的中心是一輛由一頭驢拉著的手推車。手推車上有一群人，包括一位看起來像是嚮導的年長男子、一位穿著黑色外套的婦女、一位穿著灰色衣服的年輕婦女、一個用頭巾遮住臉的小女孩和一個穿著綠色衣服的小男孩。他們似乎正在從一個被破壞的地區轉移到另一個地方。他們周圍是碎片、垃圾和倒塌的建築物，顯示出一個艱難和匱乏的生活環境。在他們身後，有一些人正在步行或騎自行車，一些人還帶著行李。天空湛藍，但整個圖像的氣氛沉重而悲傷。這可能是一個移民、避難或其他悲慘事件的場景。

3. 多輪視覺問答與推理

來源: https://kenh14.vn

用戶：請提供患者信息
助手：姓名：NGUYỄN THỊ THÁI TRINH，出生日期：09/09/1993，性別：女，地址：TÂN ĐỊNH - Q1 - TPHCM，醫保卡號：19169080，病歷號：2569501，區域代碼（K1/K2/K3）：2
用戶：她被診斷出患有什麼疾病？
助手：腸道細菌感染，未確定菌種
用戶：患者有既往病史嗎？如果有，是什麼？
助手：飲食導致的鈣缺乏
用戶：患者進行了哪些檢查？
助手：[NQ286] 外周血細胞總體分析（通過激光計數儀），[NQ286] 電解質圖譜（鈉、鉀、氯）[血液]，[NQ286] 谷丙轉氨酶（GPT）活性測定 [血液]，[NQ286] 穀草轉氨酶（GOT）活性測定 [血液]，[NQ286] 全鈣定量 [血液]，[NQ286] 肌酐定量 [血液]，[NQ286] 葡萄糖定量 [血液]，[NQ286] 血尿素定量 [血液]，[NQ286] 腹部超聲（肝臟、膽囊、胰腺、脾臟、腎臟、膀胱）
用戶：患者需要支付的醫療用品費用是多少？
助手：19,708
用戶：患者需要支付的藥品和輸液費用是哪些，總費用是多少？
助手：Atropin Sulfat (Syv2019)、Bicefzidim 1g (Syv2019)、GONCAL (Syv2019)、Lactated Ringer's - 500ml (Syv2019)、Nước cất pha tiêm 5ml (Syv2019)、Sodium Chloride 0.9% - 500ml (Syv2019)、Vincomid (Syv2019)、Vinopa (Syv2019)，總計45,234越南盾

📚 詳細文檔

參考文獻

[1] Qwen team. Qwen2-VL. 2024. [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023). [4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024). [5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. [6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024). [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).