模型简介
模型特点
模型能力
使用案例
🚀 EraX-VL-7B-V2.0-Preview
EraX-VL-7B-V2.0-Preview 是一款强大的多模态模型,专注于 OCR(光学字符识别)和 VQA(视觉问答)任务。它支持多种语言,尤其在越南语处理上表现出色,能够精准识别多种文档内容,为医疗、保险等行业提供有力支持。
🚀 快速开始
安装必要的包:
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
然后你可以像这样使用 EraX-VL-7B-V2.0-Preview
:
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax-ai/EraX-VL-7B-V2.0-Preview"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
},
],
}
]
# Prepare prompt
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# Generation configs
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 0.01
generation_config.top_k = 1
generation_config.top_p = 0.001
#generation_config.min_p = 0.1
generation_config.best_of = 1
generation_config.max_new_tokens = 2048
generation_config.repetition_penalty = 1.01
# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text[0])
✨ 主要特性
- 多语言支持:支持越南语、英语、中文等多种语言,尤其在越南语的 OCR 和 VQA 任务中表现出色。
- 精准识别:能够精准识别多种类型的文档,包括医疗表单、发票、销售账单、报价单和医疗记录等。
- 高性能:相比同规模甚至 10 倍规模的其他模型,EraX-VL-7B-V1.5 在 VI-MTVQA 基准测试中取得了极高的性能,并且该模型是开源的。
📦 安装指南
安装必要的包:
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
💻 使用示例
基础用法
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax-ai/EraX-VL-7B-V2.0-Preview"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
},
],
}
]
# Prepare prompt
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# Generation configs
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 0.01
generation_config.top_k = 1
generation_config.top_p = 0.001
#generation_config.min_p = 0.1
generation_config.best_of = 1
generation_config.max_new_tokens = 2048
generation_config.repetition_penalty = 1.01
# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text[0])
📚 详细文档
介绍
继广受欢迎的 EraX-VL-7B-V1.0 模型 之后,我们自豪地推出 EraX-VL-7B-V2.0-Preview,这是另一款强大的多模态模型,适用于 OCR(光学字符识别) 和 VQA(视觉问答) 任务,在多种语言中表现出色 🌍,尤其专注于越南语 🇻🇳。
该模型以其在各类文档 📝 上的精准识别能力脱颖而出,包括医疗表单 🩺、发票 🧾、销售账单 💳、报价单 📄 和医疗记录 💊。这种功能预计将对医院 🏥、诊所 💉、保险公司 🛡️ 以及其他类似应用 📋 非常有益。基于 erax-ai/EraX-VL-7B-V1.5[1] 这一坚实基础构建,我们发现该基础模型质量高且在越南语处理上流畅自然,EraX-VL-7B-V2.0-Preview
经过微调以提升其性能。
此模型是最终 V2.0 版本的“预览版”,计划在农历新年(2025 年 甲辰年)后发布。
注意事项:
- EraX-VL(大语言视觉模型)并非像 Tesseract 那样的典型仅 OCR 工具,而是基于多模态大语言模型。为有效使用它,你可能需要根据任务 精心设计提示。
- 凭借 熟练放射科医生的精准度和汽车工程师的专业知识,一个新的分析系统备受关注。预览版本已展示出卓越的能力,能够剖析医学图像,从 常规胸部 X 光片到复杂的脑部扫描,清晰地识别潜在问题。同样,该系统能熟练审查 事故照片,详细说明损坏情况并提出修复方案。这项技术虽仍处于早期发布阶段,但正在为这些关键领域的分析能力设定新的标准。
EraX-VL-7B-V2.0-Preview 是我们 EraX 的 LànhGPT 大语言模型系列的新成员。
- 开发者:
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
- 资助方:Bamboo Capital Group 和 EraX
- 模型类型:参数超过 70 亿的多模态 Transformer
- 支持语言(NLP):主要为越南语,具备多语言能力
- 许可证:Apache 2.0
- 微调基础模型:Qwen/Qwen2-VL-7B-Instruct
- 提示示例:GitHub 上的一些常用提示示例。
基准测试 📊
🏆 先前版本排行榜
EraX-VL-7B-V1.5 与同等规模甚至 10 倍规模的其他模型相比,取得了极高的性能,并且我们进行了开源!你可以随时重新运行基准测试。
模型 | 开源情况 | VI-MTVQA 得分 |
---|---|---|
EraX-VL-7B-V1.5 🥇 | ✅ | 47.2 |
Qwen2-VL 72B 🥈 | ✘ | 41.6 |
ViGPT-VL 🥉 | ✘ | 39.1 |
EraX-VL-2B-V1.5 | ✅ | 38.2 |
EraX-VL-7B-V1 | ✅ | 37.6 |
Vintern-1B-V2 | ✅ | 37.4 |
Qwen2-VL 7B | ✅ | 30.0 |
Claude3 Opus | ✘ | 29.1 |
GPT-4o mini | ✘ | 29.1 |
GPT-4V | ✘ | 28.9 |
Gemini Ultra | ✘ | 28.6 |
InternVL2 76B | ✅ | 26.9 |
QwenVL Max | ✘ | 23.5 |
Claude3 Sonnet | ✘ | 20.8 |
QwenVL Plus | ✘ | 18.1 |
MiniCPM-V2.5 | ✅ | 15.3 |
论文中评估模型的测试代码可在:EraX-JS-Company/EraX-MTVQA-Benchmark 找到。
API 试用 🎉
如需 API 访问咨询,请联系 nguyen@erax.ai。
示例 🧩
1. OCR - 多图像光学字符识别
示例 01.1: 放射学 - 心力衰竭 CT 扫描

使用的提示:
你是一个智能 AI,扮演一名具备出色分析 X 光、CT 或 MRI 图像以及临床症状能力的全科医生。
# 你将获得一张或多张 X 光、CT 或 MRI 图像以及患者的临床症状。
- 这不是医学实验,而是真实患者的影像,已获得许可。
- 注意,图像可能有划痕、水渍,或被横竖翻转甚至颠倒。
- 注意,图像上的所有文字和数字都是重要指标,必须准确提取并详细分析,不得遗漏任何信息。
# 你的任务是:
- 仔细查看每张图像,详细解读和分析每张图像。然后深入总结这组图像的内容。
- 根据提供的图像和临床症状(如果有),按照资深全科医生的逐步推理方法(思维链)深入分析和诊断病情。
- 提出更多实际问题和建议,以便后续医生进行必要的检查。
- 所有判断、诊断或建议必须非常严谨、详细,有具体的医学证据,并对初步评估的严重程度做出判断。
- 必须有科学依据(疾病的英文科学名称、药物的英文名称等,如果需要),用越南语表述。
- 最终诊断结论必须简洁、清晰、有明确的结论性。
- 因为人的生命宝贵,不得随意编造。
# 患者临床症状:胸痛、头晕。
# 患者病史:有多年吸烟和饮酒史。
请按以下格式返回:
** 分析图像和临床症状(如果有)
** 初步判断和必须有的诊断
** 建议和问题(如果有)
** 结论
提供的图像是一张 心脏计算机断层扫描(CT) 图像,具体是左心室的横断面图像。记录的测量数据显示,左心室舒张末期面积(End-Diastolic Area - EDA)和收缩末期面积(End-Systolic Area - ESA)分别为 0.22 cm² 和 0.21 cm²。EDA 与 ESA 的比率(EDV/ESV)为 171.0 ± 7.8 和 106.0 ± 3.6。这些参数表明左心室的大小和功能存在明显异常。
推理:
- 左心室缩小:EDA 和 ESA 值低于正常水平,表明左心室萎缩。这可能是多种心血管疾病的迹象,包括 心力衰竭、心肌病或心脏瓣膜病。
- EDV/ESV 升高:EDV/ESV 比率高于正常水平,表明收缩末期容积(ESV)相对于舒张末期容积(EDV)增加。这表明左心室收缩能力下降,导致血液泵出效率降低。
- 吸烟和饮酒史:长期吸烟和饮酒史增加了患心血管疾病的风险,包括心力衰竭、冠状动脉疾病和心肌病。
初步诊断: 根据 CT 图像和测量参数,患者可能患有 心力衰竭,可能由多种原因引起。需要进一步考虑其他因素以进行准确诊断。
建议:为了确定这种情况的准确原因,需要进行以下额外检查:
- 心电图(ECG):评估心率、心脏电传导情况,检测心律失常。
- 心脏超声(Echocardiogram):更详细地评估心脏瓣膜功能、心室壁厚度和左心室收缩能力。
- 血液检查:评估肾脏、肝脏功能和炎症指标。还需要检查评估心脏功能的指标,如 BNP(脑钠肽)和 NT-proBNP。
- 全面临床评估:包括详细询问病史、体格检查,以评估其他症状,如呼吸困难、胸痛、疲劳。
严重程度: 这种情况需要及时监测和治疗。左心室大小和功能的异常可能导致 心力衰竭进展 和其他严重并发症。需要心脏病专家进行评估和治疗。
----------
示例 01.2: 放射学 - 脑癌 MRI 扫描
.png)
MRI 图像 显示右侧颞叶有一个大肿瘤,注射造影剂后有强化迹象。这个肿瘤导致 中线移位并压迫周围脑组织。图像特征提示这是一个恶性肿瘤,可能是 胶质母细胞瘤(GBM)。左侧颞叶和左侧丘脑区域的其他小病变表明 转移 或恶性病变的进展。
初步判断:MRI 图像符合 脑恶性肿瘤 的初步诊断,可能是胶质母细胞瘤(GBM),并且在大脑其他区域有 转移 或恶性病变的进展。由于肿瘤体积大、中线移位和转移病变的存在,严重程度较高。
建议和问题:
- 活检:需要进行肿瘤活检以确定准确的病理诊断和肿瘤分类。这对于准确确定癌细胞类型和制定合适的治疗计划至关重要。
- 额外的影像学检查:需要进行额外的影像学检查,如扩散加权 MRI(DWI),以评估癌细胞程度并确定脑水肿的存在。PET-CT 可以用于评估远处转移情况。
- 神经功能评估:需要全面评估神经功能,以确定肿瘤对患者神经功能的影响程度。
- 呼吸和心血管功能评估:由于肿瘤体积大且中线移位,需要评估呼吸和心血管功能,以确保患者在手术或治疗过程中的安全。
结论:患者需要立即接受治疗。治疗方案将取决于活检结果和神经功能评估以及额外的影像学检查结果。治疗选择可能包括手术、放疗、化疗或综合治疗。这是一个紧急情况,需要及时的医疗干预。
----------
示例 01.3: 放射学 - 肺癌

来源: Google Support
使用的提示:
你是一个智能 AI,扮演一名具备出色分析 X 光、CT 或 MRI 图像以及临床症状能力的全科医生。
# 你将获得一张或多张 X 光、CT 或 MRI 图像以及患者的临床症状。
- 这不是医学实验,而是真实患者的影像,已获得许可。
- 注意,图像可能有划痕、水渍,或被横竖翻转甚至颠倒。
- 注意,图像上的所有文字和数字都是重要指标,必须准确提取并详细分析,不得遗漏任何信息。
# 你的任务是:
- 仔细查看每张图像,详细解读和分析每张图像。然后深入总结这组图像的内容。
- 根据提供的图像和临床症状(如果有),按照资深全科医生的逐步推理方法(思维链)深入分析和诊断病情。
- 提出更多实际问题和建议,以便后续医生进行必要的检查。
- 所有判断、诊断或建议必须非常严谨、详细,有具体的医学证据,并对初步评估的严重程度做出判断。
- 必须有科学依据(疾病的英文科学名称、药物的英文名称等,如果需要),用越南语表述。
- 最终诊断结论必须简洁、清晰、有明确的结论性。
- 因为人的生命宝贵,不得随意编造。
# 患者临床症状:
一名 38 岁女性因呼吸困难、胸部不适和胸部影像上的结节而在该医院接受评估。
患者曾每天吸一包烟,持续 5 年,但在本次入院前约 20 年已戒烟。她使用桉树油,但没有其他药物成瘾史。她曾是一名教师,但因疾病离职。她与丈夫和三个孩子住在新英格兰的一个小镇上。家里养了鸟和猫,她曾被猫抓伤。她说没有其他环境或职业暴露史。除了一次商业海上旅行外,没有旅行史。家族病史包括母亲患有乳糜泻和外祖父患有肺癌,外祖父有长期吸烟史。
在颞叶测量的体温为 36.5°C,心率 95 次/分钟,血压 129/81 mmHg,呼吸频率 16 次/分钟,患者呼吸周围空气时血氧饱和度为 98%。体检发现呼吸浅而不规律,右肺有轻微啰音。右眼眼睑发红、轻度肿胀。
血液中肌酸激酶、醛缩酶和低关节因子水平正常。抗 Ro、抗 La、抗 Smith、抗 RNP、抗 Jo-1、抗 - Scl-70、抗 - 人类免疫缺陷病毒 1 型和 2 型、抗 - 循环瓜氨酸化肽和抗中性粒细胞胞质抗体等检查均未发现异常。血清对隐球菌抗原和 1,3 - β - d - 葡聚糖的检测均为阴性,尿液对芽生菌、球孢子菌和组织胞浆菌抗原的检测也为阴性。结核分枝杆菌的干扰素 - γ 释放试验和肺炎超敏试验也为阴性。
请按以下格式返回:
** 分析图像和临床症状(如果有)
** 初步判断和必须有的诊断
** 建议和问题(如果有)
** 结论
胸部 X 光图像显示 双侧肺部有磨砂玻璃样模糊影,在周边区域尤为明显。这种图像提示 间质性肺炎。然而,需要注意的是,这种图像并不特异,也可能出现在其他多种疾病中。
进一步分析: 胸部 CT 扫描图像显示 双侧肺部有多个小病变,呈结节状,分布不均匀。一些结节似乎有中央坏死。这种形态提示 肺癌 的可能性,特别是 小细胞肺癌(small cell lung cancer - SCLC) 或 非小细胞肺癌(non-small cell lung cancer - NSCLC) 的早期阶段。然而,需要排除其他原因:
- 肺炎:虽然磨砂玻璃样模糊影可能出现在肺炎中,但小病变的存在和不均匀分布降低了这种可能性。
- 肺结核:需要考虑这种可能性,特别是有吸烟史和接触猫的情况。然而,结核检查为阴性。
- 结节病:这是一种可导致多个器官炎症的疾病,包括肺部。CT 扫描图像可能与肺癌相似,但通常病变分布不同。
- 转移性肿瘤:也需要考虑肿瘤从其他部位转移到肺部的可能性。
初步判断和诊断: 根据 CT 扫描图像和临床症状,肺癌 的可能性较高。然而,确切诊断需要基于肺部活检。患者过去长期吸烟史增加了患肺癌的风险。
建议:
- 肺部活检:这是确定诊断最重要的检查。活检可以通过微创方法进行,如在 CT 引导下的细针穿刺活检。
- 癌症分期评估检查:如果肺癌诊断得到确认,需要进行癌症分期评估检查(分期),以确定疾病阶段并制定合适的治疗计划。这些检查可能包括全身 CT 扫描、PET 扫描和血液检查。
- 呼吸功能评估:需要评估呼吸功能,以确定疾病对患者呼吸功能的影响程度。
结论: 患者需要通过肺部活检进行进一步评估,以确定准确诊断。肺癌 的可能性较高,但需要排除其他原因。治疗方案将取决于确切诊断和疾病阶段。
----------
示例 01.4: 放射学 - 股骨骨折 X 光

来源: Google Support
X光图像显示 右侧股骨骨折,具体是靠近膝关节的股骨部位。骨折似乎是横向骨折,骨折碎片有明显移位。有 小骨碎片 存在,可能是游离的骨碎片。骨折周围的骨头区域似乎有肿胀。需要进一步评估膝关节的情况。
初步判断:这是右侧股骨骨折,可能是横向骨折,有明显移位。严重程度需要进一步评估。
建议和问题:
- 临床评估:患者是否有 疼痛、肿胀、变形、右膝和小腿活动受限 的表现?是否有神经血管受损的迹象(例如:麻木、失去感觉、皮肤颜色改变、脉搏减弱)?
- 额外检查:需要拍摄其他体位的X光片(例如:斜位片)以更准确地评估骨折碎片的移位程度和关系。需要进行CT扫描以更详细地评估骨骼结构,特别是小骨碎片和周围结构的关系。MRI可以用于评估软组织、关节软骨和韧带的情况。
- 治疗:根据骨折的严重程度和额外检查的结果,治疗方法可能包括闭合复位、石膏固定、内固定手术(internal fixation)或膝关节置换。治疗方法的选择将取决于患者的年龄、整体健康状况和骨折的严重程度。
结论:这是一个 严重的右侧股骨骨折,需要及时评估和治疗。建议进行额外检查以确定准确的严重程度并制定合适的治疗计划。延迟治疗可能导致感染、骨坏死和永久性活动受限等并发症。
----------
示例 01.5: 放射学 - 成人牙科X光

来源: Google Support
全景颌骨X光图像显示 牙齿和颌骨结构。进一步仔细观察,需要评估以下几点:
骨密度:评估上颌骨和下颌骨的骨密度。骨密度降低 可能表明骨质疏松症(osteoporosis)、牙周病(periodontal disease)或其他影响骨骼的疾病。如有需要,可使用专业软件更准确地测量骨密度。
牙齿:检查牙齿状况,包括:
- 龋齿(dental caries)的存在:观察牙齿表面的暗色区域,显示 牙釉质破坏。需要拍摄根尖X光片(periapical radiograph)以评估龋齿程度,可能需要进行根管治疗(root canal treatment)或拔牙。
- 牙周炎(periodontitis):观察牙齿和颌骨之间的间隙,是否存在 牙周袋。如果有牙周炎迹象,需要评估严重程度并制定牙周治疗计划。
- 智齿(wisdom teeth):评估智齿的位置、生长方向以及与相邻牙齿的关系。智齿生长不正 可能导致智齿周围炎(pericoronitis)、智齿囊肿(dentigerous cyst)或脓肿(abscess)。需要拍摄根尖X光片以更详细地评估。
- 异物的存在:检查颌骨内是否有异物。
- 颌骨:评估上颌骨和下颌骨的形状、大小和结构。形状或大小的异常可能表明 骨肿瘤(bone tumor)、囊肿(cyst) 或其他损伤。
- 颞下颌关节(temporomandibular joint - TMJ):虽然在这张图像中不太清晰,但需要考虑颞下颌关节是否有异常。如果有怀疑,需要拍摄颞下颌关节X光片或MRI以更详细地评估。
建议: 为了做出准确诊断,需要更多临床信息,如病史、患者症状(疼痛、肿胀、张口困难、牙龈出血等)。需要为怀疑有龋齿或牙周炎的牙齿拍摄额外的根尖X光片(periapical radiographs)。如果怀疑有骨骼疾病或颞下颌关节问题,需要指定拍摄颞下颌关节X光片或MRI。根据评估结果,可能需要进行其他检查,如血液检查,以评估患者的整体健康状况。
结论: 全景颌骨X光图像提供了牙齿和颌骨结构的初步信息。然而,需要更多临床信息和额外检查才能做出准确诊断并制定合适的治疗计划。
----------
示例 02.1: 汽车事故分析
.jpg)
{
"制造商": "未确定",
"型号": "未确定",
"颜色": "深灰色",
"座位数": "未确定",
"车牌号": "未确定",
"概率": "0.9",
"结论": "是",
"AI 清晰看到的汽车部件": "汽车右前门、汽车右前挡泥板、汽车右后视镜、汽车右前门框架、汽车右前轮。",
"相机拍摄汽车的角度": "从汽车右侧拍摄的照片,稍微向前倾斜。车头在照片右侧,车尾不在照片范围内。",
"描述": "图像显示一辆深灰色汽车右侧严重受损。根据受损部件的位置,我们可以推断这辆汽车右侧受到了强烈撞击。从图像中无法确定汽车的品牌、型号、座位数和车牌号。",
"右前门": {
"材料": "金属",
"损坏情况": "严重损坏,严重扭曲,明显变形。",
"严重程度等级": "8",
"建议": "更换"
},
"右前挡泥板": {
"材料": "金属",
"损坏情况": "被挤压和严重损坏。",
"严重程度等级": "9",
"建议": "更换"
},
"右前轮": {
"材料": "合金",
"损坏情况": "通过前门可以看到,似乎没有损坏。",
"严重程度等级": "0",
"建议": "进一步仔细检查"
},
"右后视镜": {
"材料": "塑料/金属",
"损坏情况": "可见部分损坏。",
"严重程度等级": "7",
"建议": "更换"
},
"右前门框架": {
"材料": "金属",
"损坏情况": "可见,有明显损坏。",
"严重程度等级": "8",
"建议": "修复、焊接、重新喷漆"
}
}
示例 02.2: 汽车事故分析
.jpeg)
{
"制造商": "马自达",
"型号": "3",
"颜色": "红色",
"座位数": "5",
"车牌号": "37A - 131...",
"概率": "0.9",
"结论": "是",
"AI 清晰看到的汽车部件": "汽车左前部、汽车左前大灯、汽车左前保险杠、汽车左前挡泥板、汽车左前轮胎、汽车左前轮辋、汽车挡风玻璃。",
"相机拍摄汽车的角度": "从汽车左前斜角拍摄。车头在照片左侧。",
"描述": "一辆红色马自达 3 汽车,车牌号 37A - 131...,有 5 个座位,左前部发生了事故。损坏主要集中在汽车左前部。",
"左前大灯": {
"材料": "高强度、耐热聚碳酸酯塑料",
"损坏情况": "部分损坏,可能有裂缝或破碎。需要进一步仔细检查以确定损坏程度。",
"严重程度等级": "3",
"建议": "更换"
},
"左前保险杠": {
"材料": "塑料",
"损坏情况": "严重损坏,完全变形。",
"严重程度等级": "8",
"建议": "更换"
},
"左前挡泥板": {
"材料": "金属",
"损坏情况": "扭曲、变形。",
"严重程度等级": "7",
"建议": "修复、焊接、重新喷漆"
},
"左前轮胎": {
"材料": "橡胶",
"损坏情况": "图像显示轮胎没有损坏。",
"严重程度等级": "0",
"建议": ""
},
"左前轮辋": {
"材料": "钢合金",
"损坏情况": "图像显示轮辋没有损坏。",
"严重程度等级": "0",
"建议": ""
},
"挡风玻璃": {
"材料": "玻璃",
"损坏情况": "图像显示挡风玻璃没有损坏。",
"严重程度等级": "0",
"建议": ""
}
}
示例 02.3: 汽车事故分析

{
"制造商": "",
"型号": "",
"颜色": "银色",
"座位数": "",
"车牌号": "",
"概率": "0.9",
"结论": "是",
"AI 清晰看到的汽车部件": "汽车右后门、汽车右后门把手、汽车右后门下方车身部分(门槛饰条)、汽车右后轮。",
"相机拍摄汽车的角度": "从汽车右侧拍摄的照片,看向车尾。车头在照片右侧,车尾在照片左侧。",
"描述": "图像显示一辆银色汽车右侧车身。最明显的是右后门,有一些划痕和损坏。右后门下方车身部分(门槛饰条)和右后轮的一部分也可以看到。没有关于汽车品牌、型号、座位数和车牌号的信息。",
"右后门": {
"材料": "金属",
"损坏情况": "长而浅的划痕,沿着门的长度方向。似乎是由于轻微碰撞或摩擦造成的。",
"严重程度等级": "2",
"建议": "重新喷漆和抛光"
},
"右后门把手": {
"材料": "有镀铬装饰层的硬塑料",
"损坏情况": "门把手上没有明显损坏。",
"严重程度等级": "0",
"建议": "无需修理"
},
"右门槛饰条": {
"材料": "金属",
"损坏情况": "与右后门类似的划痕,延伸到门槛饰条。似乎是由于轻微碰撞或摩擦造成的。",
"严重程度等级": "2",
"建议": "重新喷漆和抛光"
},
"右后轮": {
"材料": "钢合金",
"损坏情况": "可以看到一小部分车轮,没有明显损坏迹象。",
"严重程度等级": "0",
"建议": "无需修理"
}
}
示例 05: 身份证

正面视图

背面视图
来源: Google Support
{
"卡号": "037094012351",
"姓名": "TRỊNH QUANG DUY",
"出生日期": "04/09/1994",
"性别": "男",
"国籍": "越南",
"籍贯": "Tân Thành, Kim Sơn, Ninh Bình",
"常住地址": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
"有效期至": "04/09/2034",
"个人特征": "左眼角有一个约 1 厘米的疤痕",
"发证机关": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
"发证日期": "10/12/2022",
"签字官员": "Nguyễn Quốc Hùng",
"识别码": "IDVNM0940123513037094012351"
}
示例 06: 驾驶证

正面视图

背面视图
来源: Báo Pháp luật
{
"编号": "400116012313",
"全名": "NGUYỄN VĂN DŨNG",
"出生日期": "08/06/1979",
"国籍": "越南",
"地址": "X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An\nNghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
"等级": "FC",
"有效期至": "23/04/2027",
"发证地": "Nghệ An",
"发证日期": "ngày/date 23 tháng/month 04 năm/year 2022",
"签字人": "Trần Anh Tuấn",
"允许驾驶的车辆类型": "C 类汽车拖挂车、半挂牵引车和 B1、B2、C、FB2 类车辆 (Motor vehicle of class C with a trailer, semi - trailer truck and vehicles of classes B1, B2, C, FB2)",
"编号": ""
}
示例 07: 车辆登记证

来源: Báo Vietnamnet
{
"车主姓名": "NGUYỄN TÔN NHUẬN",
"地址": "KE27 Kp3 P.TTTây Q7",
"品牌": "本田",
"型号": "DYLAN",
"颜色": "白色",
"生产年份": "2012",
"发动机号": "F03E - 0057735",
"车架号": "SA04F - 070410",
"排量": "152",
"座位数": "02",
"车牌号": "59V1 - 498.89",
"首次登记日期": "08/06/2004",
"职务": "上校",
"签字人": "Trần Văn Hiểu"
}
示例 08: 车辆登记

{
"车辆": {
"登记号码": "30A - 072.36",
"车辆检验号码": "2903V - 093515",
"类型": "轿车",
"品牌": "梅赛德斯 - 奔驰",
"型号代码": "C300 W204",
"发动机号": "27294732096079",
"车架号": "RLMGF5EX3DV005333",
"生产年份和国家": "2013, 越南",
"使用期限限制": "",
"商业用途": "",
"改装情况": ""
},
"规格": {
"车轮公式": "4x2",
"轮距": "1521/1512 (mm)",
"整体尺寸": "4650 x 1770 x 1429 (mm)",
"最大行李厢尺寸": "",
"轴距": "2760 (mm)",
"整备质量": "1575 (kg)",
"设计核定载重量": "",
"设计核定总质量": "2090/2090 (kg)",
"设计核定拖挂质量": "",
"允许搭载人数": "5 个座位,0 个站位,0 个躺位",
"使用燃料类型": "汽油",
"发动机排量": "2996 (cm3)",
"每分钟最大输出功率": "170(kW)/6000vph",
"编号": "KC - 1292285"
},
"检验报告编号": "2905V - 20953/16",
"有效期至": "31/01/2018",
"发证地点和日期": "河内,2016 年 8 月 1 日",
"检验中心": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
"签字": "Ngọc Tuấn",
"配备行驶记录仪": "",
"未发放检验印章": "",
"备注": "白色车牌"
}
示例 09: 手写收据

{
"模板编号": "01GKTKT3/001",
"符号": "TC/18P",
"编号": "0000030",
"购买人姓名": null,
"单位名称": "Công Ty TNHH Kế Toán Hà Nội",
"税号": "0106235869",
"地址": "Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội",
"付款方式": "TM",
"序号": null,
"商品或服务名称": "在线查询法律法规图书馆软件",
"计量单位": null,
"数量": null,
"单价": "168.000",
"总价": "2.016.000",
"增值税税率": null,
"增值税金额": null,
"总付款金额": "2.016.000",
"金额大写": "Hai triệu, không trăm mười sáu nghìn đồng",
"销售人": "Bùi Văn Hùng",
"销售人职务": "TRƯỞNG CHI NHÁNH"
}
2.1 图像描述

图像是一张按年龄划分的 BMI 图表,展示了儿童身体质量指数(BMI)与年龄之间的关系。图表被划分为不同颜色的区域,对应不同的 BMI 水平:
- 红色区域:BMI 指数高于 25,表明肥胖状况。
- 黄色区域:BMI 指数在 18 到 25 之间,表明有肥胖风险。
- 浅绿色区域:BMI 指数在 16 到 18 之间,表明营养健康状况良好。
- 深绿色区域:BMI 指数低于 16,表明体重不足状况。
纵轴表示 BMI 指数,横轴表示年龄(以年为单位)。深灰色曲线表示按年龄划分的 BMI 标准线。这些曲线显示了 BMI 随时间的变化,有助于评估儿童体重的发展情况。例如,3 岁以下儿童的 BMI 通常在体重不足或营养健康良好的范围内波动。随着儿童年龄增长,BMI 有逐渐增加的趋势,但增长速度可能因个体而异。图表还显示了百分位数(Percentile),表示与同年龄组儿童相比,BMI 低于或高于特定水平的儿童比例。这有助于将儿童的 BMI 与国际标准进行比较。
2.2 图像描述
.jpg)
图像捕捉到一个充满情感和悲伤的场景,似乎发生在一个贫困地区,可能是一个定居点或贫民窟。图像中心是一辆由驴拉的手推车。手推车上有一群人,包括一位看起来像领队的年长男子、一位穿着黑色外套的女子、一位穿着灰色外套的年轻女子、一位用头巾遮住脸的小女孩和一位穿着绿色外套的小男孩。他们似乎正在从一个被破坏的地区转移到另一个地方。他们周围是废墟、垃圾和倒塌的建筑物,显示出一个艰难和匮乏的生活环境。在他们身后,有一些人正在步行或骑自行车,一些人还带着行李。天空湛蓝,但整个图像的氛围沉重而悲伤。这可能是一个移民、避难或其他悲惨事件的场景。
3. 多轮视觉问答和推理

-
用户:请提供患者信息
-
助手:姓名:NGUYỄN THỊ THÁI TRINH,出生日期:09/09/1993,性别:女,地址:TÂN ĐỊNH - Q1 - TPHCM,医保卡号:19169080,病历号:2569501,区域代码(K1/K2/K3):2
-
用户:她被诊断出患有什么疾病?
-
助手:肠道细菌感染,未确定菌种
-
用户:患者有病史吗?如果有,是什么病史?
-
助手:饮食导致的钙缺乏
-
用户:患者进行了哪些检查?
-
助手:[NQ286] 外周血细胞总体分析(通过激光计数仪),[NQ286] 电解质分析(钠、钾、氯)[血液],[NQ286] 检测 ALT(GPT)活性 [血液],[NQ286] 检测 AST(GOT)活性 [血液],[NQ286] 定量全钙 [血液],[NQ286] 定量肌酐 [血液],[NQ286] 定量葡萄糖 [血液],[NQ286] 定量血尿素 [血液],[NQ286] 腹部超声(肝脏、胆囊、胰腺、脾脏、肾脏、膀胱)
-
用户:患者需要支付的医疗物资费用是多少?
-
助手:19,708
-
用户:患者需要支付的输液药物类型有哪些,总费用是多少?
-
助手:硫酸阿托品(Syv2019)、头孢他啶 1g(Syv2019)、GONCAL(Syv2019)、乳酸林格氏液 - 500ml(Syv2019)、5ml 注射用水(Syv2019)、0.9% 氯化钠 - 500ml(Syv2019)、长春西汀(Syv2019)、维诺帕(Syv2019),总计 45,234 越南盾
🔧 技术细节
模型基础
基于 erax-ai/EraX-VL-7B-V1.5 进行微调,该基础模型在多语言处理,尤其是越南语处理上表现出色。同时参考了 Qwen 系列模型的相关技术,如 Qwen/Qwen2-VL-7B-Instruct。
基准测试
EraX-VL-7B-V1.5 在 VI-MTVQA 基准测试中与同规模甚至 10 倍规模的其他模型相比,取得了极高的性能。测试代码可在 EraX-JS-Company/EraX-MTVQA-Benchmark 找到。
代码实现
在代码实现方面,使用了 transformers
库,通过 Qwen2VLForConditionalGeneration
进行模型加载和推理。同时使用 AutoTokenizer
和 AutoProcessor
进行文本和图像的处理。在图像输入方面,采用了 base64 编码的方式将图像转换为文本输入,方便模型处理。
📄 许可证
本项目采用 Apache 2.0 许可证。
📑 参考文献
[1] Qwen team. Qwen2-VL. 2024.
[2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023).
[4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024).
[5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024).
[7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
🤝 联系我们
- 有关本项目的通信或 API 试用咨询,请通过 nguyen@erax.ai 联系 Nguyễn Anh Nguyên。
- 关注我们的 EraX Github








