模型概述
模型特點
模型能力
使用案例
🚀 EraX-VL-7B-V2.0-Preview
EraX-VL-7B-V2.0-Preview 是一款強大的多模態模型,專注於 OCR(光學字符識別)和 VQA(視覺問答)任務。它支持多種語言,尤其在越南語處理上表現出色,能夠精準識別多種文檔內容,為醫療、保險等行業提供有力支持。
🚀 快速開始
安裝必要的包:
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
然後你可以像這樣使用 EraX-VL-7B-V2.0-Preview
:
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax-ai/EraX-VL-7B-V2.0-Preview"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
},
],
}
]
# Prepare prompt
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# Generation configs
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 0.01
generation_config.top_k = 1
generation_config.top_p = 0.001
#generation_config.min_p = 0.1
generation_config.best_of = 1
generation_config.max_new_tokens = 2048
generation_config.repetition_penalty = 1.01
# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text[0])
✨ 主要特性
- 多語言支持:支持越南語、英語、中文等多種語言,尤其在越南語的 OCR 和 VQA 任務中表現出色。
- 精準識別:能夠精準識別多種類型的文檔,包括醫療表單、發票、銷售賬單、報價單和醫療記錄等。
- 高性能:相比同規模甚至 10 倍規模的其他模型,EraX-VL-7B-V1.5 在 VI-MTVQA 基準測試中取得了極高的性能,並且該模型是開源的。
📦 安裝指南
安裝必要的包:
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
💻 使用示例
基礎用法
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax-ai/EraX-VL-7B-V2.0-Preview"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
},
],
}
]
# Prepare prompt
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# Generation configs
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 0.01
generation_config.top_k = 1
generation_config.top_p = 0.001
#generation_config.min_p = 0.1
generation_config.best_of = 1
generation_config.max_new_tokens = 2048
generation_config.repetition_penalty = 1.01
# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text[0])
📚 詳細文檔
介紹
繼廣受歡迎的 EraX-VL-7B-V1.0 模型 之後,我們自豪地推出 EraX-VL-7B-V2.0-Preview,這是另一款強大的多模態模型,適用於 OCR(光學字符識別) 和 VQA(視覺問答) 任務,在多種語言中表現出色 🌍,尤其專注于越南語 🇻🇳。
該模型以其在各類文檔 📝 上的精準識別能力脫穎而出,包括醫療表單 🩺、發票 🧾、銷售賬單 💳、報價單 📄 和醫療記錄 💊。這種功能預計將對醫院 🏥、診所 💉、保險公司 🛡️ 以及其他類似應用 📋 非常有益。基於 erax-ai/EraX-VL-7B-V1.5[1] 這一堅實基礎構建,我們發現該基礎模型質量高且在越南語處理上流暢自然,EraX-VL-7B-V2.0-Preview
經過微調以提升其性能。
此模型是最終 V2.0 版本的“預覽版”,計劃在農曆新年(2025 年 甲辰年)後發佈。
注意事項:
- EraX-VL(大語言視覺模型)並非像 Tesseract 那樣的典型僅 OCR 工具,而是基於多模態大語言模型。為有效使用它,你可能需要根據任務 精心設計提示。
- 憑藉 熟練放射科醫生的精準度和汽車工程師的專業知識,一個新的分析系統備受關注。預覽版本已展示出卓越的能力,能夠剖析醫學圖像,從 常規胸部 X 光片到複雜的腦部掃描,清晰地識別潛在問題。同樣,該系統能熟練審查 事故照片,詳細說明損壞情況並提出修復方案。這項技術雖仍處於早期發佈階段,但正在為這些關鍵領域的分析能力設定新的標準。
EraX-VL-7B-V2.0-Preview 是我們 EraX 的 LànhGPT 大語言模型系列的新成員。
- 開發者:
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
- 資助方:Bamboo Capital Group 和 EraX
- 模型類型:參數超過 70 億的多模態 Transformer
- 支持語言(NLP):主要為越南語,具備多語言能力
- 許可證:Apache 2.0
- 微調基礎模型:Qwen/Qwen2-VL-7B-Instruct
- 提示示例:GitHub 上的一些常用提示示例。
基準測試 📊
🏆 先前版本排行榜
EraX-VL-7B-V1.5 與同等規模甚至 10 倍規模的其他模型相比,取得了極高的性能,並且我們進行了開源!你可以隨時重新運行基準測試。
模型 | 開源情況 | VI-MTVQA 得分 |
---|---|---|
EraX-VL-7B-V1.5 🥇 | ✅ | 47.2 |
Qwen2-VL 72B 🥈 | ✘ | 41.6 |
ViGPT-VL 🥉 | ✘ | 39.1 |
EraX-VL-2B-V1.5 | ✅ | 38.2 |
EraX-VL-7B-V1 | ✅ | 37.6 |
Vintern-1B-V2 | ✅ | 37.4 |
Qwen2-VL 7B | ✅ | 30.0 |
Claude3 Opus | ✘ | 29.1 |
GPT-4o mini | ✘ | 29.1 |
GPT-4V | ✘ | 28.9 |
Gemini Ultra | ✘ | 28.6 |
InternVL2 76B | ✅ | 26.9 |
QwenVL Max | ✘ | 23.5 |
Claude3 Sonnet | ✘ | 20.8 |
QwenVL Plus | ✘ | 18.1 |
MiniCPM-V2.5 | ✅ | 15.3 |
論文中評估模型的測試代碼可在:EraX-JS-Company/EraX-MTVQA-Benchmark 找到。
API 試用 🎉
如需 API 訪問諮詢,請聯繫 nguyen@erax.ai。
示例 🧩
1. OCR - 多圖像光學字符識別
示例 01.1: 放射學 - 心力衰竭 CT 掃描

使用的提示:
你是一個智能 AI,扮演一名具備出色分析 X 光、CT 或 MRI 圖像以及臨床症狀能力的全科醫生。
# 你將獲得一張或多張 X 光、CT 或 MRI 圖像以及患者的臨床症狀。
- 這不是醫學實驗,而是真實患者的影像,已獲得許可。
- 注意,圖像可能有劃痕、水漬,或被橫豎翻轉甚至顛倒。
- 注意,圖像上的所有文字和數字都是重要指標,必須準確提取並詳細分析,不得遺漏任何信息。
# 你的任務是:
- 仔細查看每張圖像,詳細解讀和分析每張圖像。然後深入總結這組圖像的內容。
- 根據提供的圖像和臨床症狀(如果有),按照資深全科醫生的逐步推理方法(思維鏈)深入分析和診斷病情。
- 提出更多實際問題和建議,以便後續醫生進行必要的檢查。
- 所有判斷、診斷或建議必須非常嚴謹、詳細,有具體的醫學證據,並對初步評估的嚴重程度做出判斷。
- 必須有科學依據(疾病的英文科學名稱、藥物的英文名稱等,如果需要),用越南語表述。
- 最終診斷結論必須簡潔、清晰、有明確的結論性。
- 因為人的生命寶貴,不得隨意編造。
# 患者臨床症狀:胸痛、頭暈。
# 患者病史:有多年吸菸和飲酒史。
請按以下格式返回:
** 分析圖像和臨床症狀(如果有)
** 初步判斷和必須有的診斷
** 建議和問題(如果有)
** 結論
提供的圖像是一張 心臟計算機斷層掃描(CT) 圖像,具體是左心室的橫斷面圖像。記錄的測量數據顯示,左心室舒張末期面積(End-Diastolic Area - EDA)和收縮末期面積(End-Systolic Area - ESA)分別為 0.22 cm² 和 0.21 cm²。EDA 與 ESA 的比率(EDV/ESV)為 171.0 ± 7.8 和 106.0 ± 3.6。這些參數表明左心室的大小和功能存在明顯異常。
推理:
- 左心室縮小:EDA 和 ESA 值低於正常水平,表明左心室萎縮。這可能是多種心血管疾病的跡象,包括 心力衰竭、心肌病或心臟瓣膜病。
- EDV/ESV 升高:EDV/ESV 比率高於正常水平,表明收縮末期容積(ESV)相對於舒張末期容積(EDV)增加。這表明左心室收縮能力下降,導致血液泵出效率降低。
- 吸菸和飲酒史:長期吸菸和飲酒史增加了患心血管疾病的風險,包括心力衰竭、冠狀動脈疾病和心肌病。
初步診斷: 根據 CT 圖像和測量參數,患者可能患有 心力衰竭,可能由多種原因引起。需要進一步考慮其他因素以進行準確診斷。
建議:為了確定這種情況的準確原因,需要進行以下額外檢查:
- 心電圖(ECG):評估心率、心臟電傳導情況,檢測心律失常。
- 心臟超聲(Echocardiogram):更詳細地評估心臟瓣膜功能、心室壁厚度和左心室收縮能力。
- 血液檢查:評估腎臟、肝臟功能和炎症指標。還需要檢查評估心臟功能的指標,如 BNP(腦鈉肽)和 NT-proBNP。
- 全面臨床評估:包括詳細詢問病史、體格檢查,以評估其他症狀,如呼吸困難、胸痛、疲勞。
嚴重程度: 這種情況需要及時監測和治療。左心室大小和功能的異常可能導致 心力衰竭進展 和其他嚴重併發症。需要心臟病專家進行評估和治療。
----------
示例 01.2: 放射學 - 腦癌 MRI 掃描
.png)
MRI 圖像 顯示右側顳葉有一個大腫瘤,注射造影劑後有強化跡象。這個腫瘤導致 中線移位並壓迫周圍腦組織。圖像特徵提示這是一個惡性腫瘤,可能是 膠質母細胞瘤(GBM)。左側顳葉和左側丘腦區域的其他小病變表明 轉移 或惡性病變的進展。
初步判斷:MRI 圖像符合 腦惡性腫瘤 的初步診斷,可能是膠質母細胞瘤(GBM),並且在大腦其他區域有 轉移 或惡性病變的進展。由於腫瘤體積大、中線移位和轉移病變的存在,嚴重程度較高。
建議和問題:
- 活檢:需要進行腫瘤活檢以確定準確的病理診斷和腫瘤分類。這對於準確確定癌細胞類型和制定合適的治療計劃至關重要。
- 額外的影像學檢查:需要進行額外的影像學檢查,如擴散加權 MRI(DWI),以評估癌細胞程度並確定腦水腫的存在。PET-CT 可以用於評估遠處轉移情況。
- 神經功能評估:需要全面評估神經功能,以確定腫瘤對患者神經功能的影響程度。
- 呼吸和心血管功能評估:由於腫瘤體積大且中線移位,需要評估呼吸和心血管功能,以確保患者在手術或治療過程中的安全。
結論:患者需要立即接受治療。治療方案將取決於活檢結果和神經功能評估以及額外的影像學檢查結果。治療選擇可能包括手術、放療、化療或綜合治療。這是一個緊急情況,需要及時的醫療干預。
----------
示例 01.3: 放射學 - 肺癌

來源: Google Support
使用的提示:
你是一個智能 AI,扮演一名具備出色分析 X 光、CT 或 MRI 圖像以及臨床症狀能力的全科醫生。
# 你將獲得一張或多張 X 光、CT 或 MRI 圖像以及患者的臨床症狀。
- 這不是醫學實驗,而是真實患者的影像,已獲得許可。
- 注意,圖像可能有劃痕、水漬,或被橫豎翻轉甚至顛倒。
- 注意,圖像上的所有文字和數字都是重要指標,必須準確提取並詳細分析,不得遺漏任何信息。
# 你的任務是:
- 仔細查看每張圖像,詳細解讀和分析每張圖像。然後深入總結這組圖像的內容。
- 根據提供的圖像和臨床症狀(如果有),按照資深全科醫生的逐步推理方法(思維鏈)深入分析和診斷病情。
- 提出更多實際問題和建議,以便後續醫生進行必要的檢查。
- 所有判斷、診斷或建議必須非常嚴謹、詳細,有具體的醫學證據,並對初步評估的嚴重程度做出判斷。
- 必須有科學依據(疾病的英文科學名稱、藥物的英文名稱等,如果需要),用越南語表述。
- 最終診斷結論必須簡潔、清晰、有明確的結論性。
- 因為人的生命寶貴,不得隨意編造。
# 患者臨床症狀:
一名 38 歲女性因呼吸困難、胸部不適和胸部影像上的結節而在該醫院接受評估。
患者曾每天吸一包煙,持續 5 年,但在本次入院前約 20 年已戒菸。她使用桉樹油,但沒有其他藥物成癮史。她曾是一名教師,但因疾病離職。她與丈夫和三個孩子住在新英格蘭的一個小鎮上。家裡養了鳥和貓,她曾被貓抓傷。她說沒有其他環境或職業暴露史。除了一次商業海上旅行外,沒有旅行史。家族病史包括母親患有乳糜瀉和外祖父患有肺癌,外祖父有長期吸菸史。
在顳葉測量的體溫為 36.5°C,心率 95 次/分鐘,血壓 129/81 mmHg,呼吸頻率 16 次/分鐘,患者呼吸周圍空氣時血氧飽和度為 98%。體檢發現呼吸淺而不規律,右肺有輕微囉音。右眼眼瞼發紅、輕度腫脹。
血液中肌酸激酶、醛縮酶和低關節因子水平正常。抗 Ro、抗 La、抗 Smith、抗 RNP、抗 Jo-1、抗 - Scl-70、抗 - 人類免疫缺陷病毒 1 型和 2 型、抗 - 循環瓜氨酸化肽和抗中性粒細胞胞質抗體等檢查均未發現異常。血清對隱球菌抗原和 1,3 - β - d - 葡聚糖的檢測均為陰性,尿液對芽生菌、球孢子菌和組織胞漿菌抗原的檢測也為陰性。結核分枝桿菌的干擾素 - γ 釋放試驗和肺炎超敏試驗也為陰性。
請按以下格式返回:
** 分析圖像和臨床症狀(如果有)
** 初步判斷和必須有的診斷
** 建議和問題(如果有)
** 結論
胸部 X 光圖像顯示 雙側肺部有磨砂玻璃樣模糊影,在周邊區域尤為明顯。這種圖像提示 間質性肺炎。然而,需要注意的是,這種圖像並不特異,也可能出現在其他多種疾病中。
進一步分析: 胸部 CT 掃描圖像顯示 雙側肺部有多個小病變,呈結節狀,分佈不均勻。一些結節似乎有中央壞死。這種形態提示 肺癌 的可能性,特別是 小細胞肺癌(small cell lung cancer - SCLC) 或 非小細胞肺癌(non-small cell lung cancer - NSCLC) 的早期階段。然而,需要排除其他原因:
- 肺炎:雖然磨砂玻璃樣模糊影可能出現在肺炎中,但小病變的存在和不均勻分佈降低了這種可能性。
- 肺結核:需要考慮這種可能性,特別是有吸菸史和接觸貓的情況。然而,結核檢查為陰性。
- 結節病:這是一種可導致多個器官炎症的疾病,包括肺部。CT 掃描圖像可能與肺癌相似,但通常病變分佈不同。
- 轉移性腫瘤:也需要考慮腫瘤從其他部位轉移到肺部的可能性。
初步判斷和診斷: 根據 CT 掃描圖像和臨床症狀,肺癌 的可能性較高。然而,確切診斷需要基於肺部活檢。患者過去長期吸菸史增加了患肺癌的風險。
建議:
- 肺部活檢:這是確定診斷最重要的檢查。活檢可以通過微創方法進行,如在 CT 引導下的細針穿刺活檢。
- 癌症分期評估檢查:如果肺癌診斷得到確認,需要進行癌症分期評估檢查(分期),以確定疾病階段並制定合適的治療計劃。這些檢查可能包括全身 CT 掃描、PET 掃描和血液檢查。
- 呼吸功能評估:需要評估呼吸功能,以確定疾病對患者呼吸功能的影響程度。
結論: 患者需要通過肺部活檢進行進一步評估,以確定準確診斷。肺癌 的可能性較高,但需要排除其他原因。治療方案將取決於確切診斷和疾病階段。
----------
示例 01.4: 放射學 - 股骨骨折 X 光

來源: Google Support
X光圖像顯示 右側股骨骨折,具體是靠近膝關節的股骨部位。骨折似乎是橫向骨折,骨折碎片有明顯移位。有 小骨碎片 存在,可能是遊離的骨碎片。骨折周圍的骨頭區域似乎有腫脹。需要進一步評估膝關節的情況。
初步判斷:這是右側股骨骨折,可能是橫向骨折,有明顯移位。嚴重程度需要進一步評估。
建議和問題:
- 臨床評估:患者是否有 疼痛、腫脹、變形、右膝和小腿活動受限 的表現?是否有神經血管受損的跡象(例如:麻木、失去感覺、皮膚顏色改變、脈搏減弱)?
- 額外檢查:需要拍攝其他體位的X光片(例如:斜位片)以更準確地評估骨折碎片的移位程度和關係。需要進行CT掃描以更詳細地評估骨骼結構,特別是小骨碎片和周圍結構的關係。MRI可以用於評估軟組織、關節軟骨和韌帶的情況。
- 治療:根據骨折的嚴重程度和額外檢查的結果,治療方法可能包括閉合復位、石膏固定、內固定手術(internal fixation)或膝關節置換。治療方法的選擇將取決於患者的年齡、整體健康狀況和骨折的嚴重程度。
結論:這是一個 嚴重的右側股骨骨折,需要及時評估和治療。建議進行額外檢查以確定準確的嚴重程度並制定合適的治療計劃。延遲治療可能導致感染、骨壞死和永久性活動受限等併發症。
----------
示例 01.5: 放射學 - 成人牙科X光

來源: Google Support
全景頜骨X光圖像顯示 牙齒和頜骨結構。進一步仔細觀察,需要評估以下幾點:
骨密度:評估上頜骨和下頜骨的骨密度。骨密度降低 可能表明骨質疏鬆症(osteoporosis)、牙周病(periodontal disease)或其他影響骨骼的疾病。如有需要,可使用專業軟件更準確地測量骨密度。
牙齒:檢查牙齒狀況,包括:
- 齲齒(dental caries)的存在:觀察牙齒表面的暗色區域,顯示 牙釉質破壞。需要拍攝根尖X光片(periapical radiograph)以評估齲齒程度,可能需要進行根管治療(root canal treatment)或拔牙。
- 牙周炎(periodontitis):觀察牙齒和頜骨之間的間隙,是否存在 牙周袋。如果有牙周炎跡象,需要評估嚴重程度並制定牙周治療計劃。
- 智齒(wisdom teeth):評估智齒的位置、生長方向以及與相鄰牙齒的關係。智齒生長不正 可能導致智齒周圍炎(pericoronitis)、智齒囊腫(dentigerous cyst)或膿腫(abscess)。需要拍攝根尖X光片以更詳細地評估。
- 異物的存在:檢查頜骨內是否有異物。
- 頜骨:評估上頜骨和下頜骨的形狀、大小和結構。形狀或大小的異常可能表明 骨腫瘤(bone tumor)、囊腫(cyst) 或其他損傷。
- 顳下頜關節(temporomandibular joint - TMJ):雖然在這張圖像中不太清晰,但需要考慮顳下頜關節是否有異常。如果有懷疑,需要拍攝顳下頜關節X光片或MRI以更詳細地評估。
建議: 為了做出準確診斷,需要更多臨床信息,如病史、患者症狀(疼痛、腫脹、張口困難、牙齦出血等)。需要為懷疑有齲齒或牙周炎的牙齒拍攝額外的根尖X光片(periapical radiographs)。如果懷疑有骨骼疾病或顳下頜關節問題,需要指定拍攝顳下頜關節X光片或MRI。根據評估結果,可能需要進行其他檢查,如血液檢查,以評估患者的整體健康狀況。
結論: 全景頜骨X光圖像提供了牙齒和頜骨結構的初步信息。然而,需要更多臨床信息和額外檢查才能做出準確診斷並制定合適的治療計劃。
----------
示例 02.1: 汽車事故分析
.jpg)
{
"製造商": "未確定",
"型號": "未確定",
"顏色": "深灰色",
"座位數": "未確定",
"車牌號": "未確定",
"概率": "0.9",
"結論": "是",
"AI 清晰看到的汽車部件": "汽車右前門、汽車右前擋泥板、汽車右後視鏡、汽車右前門框架、汽車右前輪。",
"相機拍攝汽車的角度": "從汽車右側拍攝的照片,稍微向前傾斜。車頭在照片右側,車尾不在照片範圍內。",
"描述": "圖像顯示一輛深灰色汽車右側嚴重受損。根據受損部件的位置,我們可以推斷這輛汽車右側受到了強烈撞擊。從圖像中無法確定汽車的品牌、型號、座位數和車牌號。",
"右前門": {
"材料": "金屬",
"損壞情況": "嚴重損壞,嚴重扭曲,明顯變形。",
"嚴重程度等級": "8",
"建議": "更換"
},
"右前擋泥板": {
"材料": "金屬",
"損壞情況": "被擠壓和嚴重損壞。",
"嚴重程度等級": "9",
"建議": "更換"
},
"右前輪": {
"材料": "合金",
"損壞情況": "通過前門可以看到,似乎沒有損壞。",
"嚴重程度等級": "0",
"建議": "進一步仔細檢查"
},
"右後視鏡": {
"材料": "塑料/金屬",
"損壞情況": "可見部分損壞。",
"嚴重程度等級": "7",
"建議": "更換"
},
"右前門框架": {
"材料": "金屬",
"損壞情況": "可見,有明顯損壞。",
"嚴重程度等級": "8",
"建議": "修復、焊接、重新噴漆"
}
}
示例 02.2: 汽車事故分析
.jpeg)
{
"製造商": "馬自達",
"型號": "3",
"顏色": "紅色",
"座位數": "5",
"車牌號": "37A - 131...",
"概率": "0.9",
"結論": "是",
"AI 清晰看到的汽車部件": "汽車左前部、汽車左前大燈、汽車左前保險槓、汽車左前擋泥板、汽車左前輪胎、汽車左前輪輞、汽車擋風玻璃。",
"相機拍攝汽車的角度": "從汽車左前斜角拍攝。車頭在照片左側。",
"描述": "一輛紅色馬自達 3 汽車,車牌號 37A - 131...,有 5 個座位,左前部發生了事故。損壞主要集中在汽車左前部。",
"左前大燈": {
"材料": "高強度、耐熱聚碳酸酯塑料",
"損壞情況": "部分損壞,可能有裂縫或破碎。需要進一步仔細檢查以確定損壞程度。",
"嚴重程度等級": "3",
"建議": "更換"
},
"左前保險槓": {
"材料": "塑料",
"損壞情況": "嚴重損壞,完全變形。",
"嚴重程度等級": "8",
"建議": "更換"
},
"左前擋泥板": {
"材料": "金屬",
"損壞情況": "扭曲、變形。",
"嚴重程度等級": "7",
"建議": "修復、焊接、重新噴漆"
},
"左前輪胎": {
"材料": "橡膠",
"損壞情況": "圖像顯示輪胎沒有損壞。",
"嚴重程度等級": "0",
"建議": ""
},
"左前輪輞": {
"材料": "鋼合金",
"損壞情況": "圖像顯示輪輞沒有損壞。",
"嚴重程度等級": "0",
"建議": ""
},
"擋風玻璃": {
"材料": "玻璃",
"損壞情況": "圖像顯示擋風玻璃沒有損壞。",
"嚴重程度等級": "0",
"建議": ""
}
}
示例 02.3: 汽車事故分析

{
"製造商": "",
"型號": "",
"顏色": "銀色",
"座位數": "",
"車牌號": "",
"概率": "0.9",
"結論": "是",
"AI 清晰看到的汽車部件": "汽車右後門、汽車右後門把手、汽車右後門下方車身部分(門檻飾條)、汽車右後輪。",
"相機拍攝汽車的角度": "從汽車右側拍攝的照片,看向車尾。車頭在照片右側,車尾在照片左側。",
"描述": "圖像顯示一輛銀色汽車右側車身。最明顯的是右後門,有一些劃痕和損壞。右後門下方車身部分(門檻飾條)和右後輪的一部分也可以看到。沒有關於汽車品牌、型號、座位數和車牌號的信息。",
"右後門": {
"材料": "金屬",
"損壞情況": "長而淺的劃痕,沿著門的長度方向。似乎是由於輕微碰撞或摩擦造成的。",
"嚴重程度等級": "2",
"建議": "重新噴漆和拋光"
},
"右後門把手": {
"材料": "有鍍鉻裝飾層的硬塑料",
"損壞情況": "門把手上沒有明顯損壞。",
"嚴重程度等級": "0",
"建議": "無需修理"
},
"右門檻飾條": {
"材料": "金屬",
"損壞情況": "與右後門類似的劃痕,延伸到門檻飾條。似乎是由於輕微碰撞或摩擦造成的。",
"嚴重程度等級": "2",
"建議": "重新噴漆和拋光"
},
"右後輪": {
"材料": "鋼合金",
"損壞情況": "可以看到一小部分車輪,沒有明顯損壞跡象。",
"嚴重程度等級": "0",
"建議": "無需修理"
}
}
示例 05: 身份證

正面視圖

背面視圖
來源: Google Support
{
"卡號": "037094012351",
"姓名": "TRỊNH QUANG DUY",
"出生日期": "04/09/1994",
"性別": "男",
"國籍": "越南",
"籍貫": "Tân Thành, Kim Sơn, Ninh Bình",
"常住地址": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
"有效期至": "04/09/2034",
"個人特徵": "左眼角有一個約 1 釐米的疤痕",
"發證機關": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
"發證日期": "10/12/2022",
"簽字官員": "Nguyễn Quốc Hùng",
"識別碼": "IDVNM0940123513037094012351"
}
示例 06: 駕駛證

正面視圖

背面視圖
來源: Báo Pháp luật
{
"編號": "400116012313",
"全名": "NGUYỄN VĂN DŨNG",
"出生日期": "08/06/1979",
"國籍": "越南",
"地址": "X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An\nNghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
"等級": "FC",
"有效期至": "23/04/2027",
"發證地": "Nghệ An",
"發證日期": "ngày/date 23 tháng/month 04 năm/year 2022",
"簽字人": "Trần Anh Tuấn",
"允許駕駛的車輛類型": "C 類汽車拖掛車、半掛牽引車和 B1、B2、C、FB2 類車輛 (Motor vehicle of class C with a trailer, semi - trailer truck and vehicles of classes B1, B2, C, FB2)",
"編號": ""
}
示例 07: 車輛登記證

來源: Báo Vietnamnet
{
"車主姓名": "NGUYỄN TÔN NHUẬN",
"地址": "KE27 Kp3 P.TTTây Q7",
"品牌": "本田",
"型號": "DYLAN",
"顏色": "白色",
"生產年份": "2012",
"發動機號": "F03E - 0057735",
"車架號": "SA04F - 070410",
"排量": "152",
"座位數": "02",
"車牌號": "59V1 - 498.89",
"首次登記日期": "08/06/2004",
"職務": "上校",
"簽字人": "Trần Văn Hiểu"
}
示例 08: 車輛登記

{
"車輛": {
"登記號碼": "30A - 072.36",
"車輛檢驗號碼": "2903V - 093515",
"類型": "轎車",
"品牌": "梅賽德斯 - 奔馳",
"型號代碼": "C300 W204",
"發動機號": "27294732096079",
"車架號": "RLMGF5EX3DV005333",
"生產年份和國家": "2013, 越南",
"使用期限限制": "",
"商業用途": "",
"改裝情況": ""
},
"規格": {
"車輪公式": "4x2",
"輪距": "1521/1512 (mm)",
"整體尺寸": "4650 x 1770 x 1429 (mm)",
"最大行李廂尺寸": "",
"軸距": "2760 (mm)",
"整備質量": "1575 (kg)",
"設計核定載重量": "",
"設計核定總質量": "2090/2090 (kg)",
"設計核定拖掛質量": "",
"允許搭載人數": "5 個座位,0 個站位,0 個躺位",
"使用燃料類型": "汽油",
"發動機排量": "2996 (cm3)",
"每分鐘最大輸出功率": "170(kW)/6000vph",
"編號": "KC - 1292285"
},
"檢驗報告編號": "2905V - 20953/16",
"有效期至": "31/01/2018",
"發證地點和日期": "河內,2016 年 8 月 1 日",
"檢驗中心": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
"簽字": "Ngọc Tuấn",
"配備行駛記錄儀": "",
"未發放檢驗印章": "",
"備註": "白色車牌"
}
示例 09: 手寫收據

{
"模板編號": "01GKTKT3/001",
"符號": "TC/18P",
"編號": "0000030",
"購買人姓名": null,
"單位名稱": "Công Ty TNHH Kế Toán Hà Nội",
"稅號": "0106235869",
"地址": "Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội",
"付款方式": "TM",
"序號": null,
"商品或服務名稱": "在線查詢法律法規圖書館軟件",
"計量單位": null,
"數量": null,
"單價": "168.000",
"總價": "2.016.000",
"增值稅稅率": null,
"增值稅金額": null,
"總付款金額": "2.016.000",
"金額大寫": "Hai triệu, không trăm mười sáu nghìn đồng",
"銷售人": "Bùi Văn Hùng",
"銷售人職務": "TRƯỞNG CHI NHÁNH"
}
2.1 圖像描述

圖像是一張按年齡劃分的 BMI 圖表,展示了兒童身體質量指數(BMI)與年齡之間的關係。圖表被劃分為不同顏色的區域,對應不同的 BMI 水平:
- 紅色區域:BMI 指數高於 25,表明肥胖狀況。
- 黃色區域:BMI 指數在 18 到 25 之間,表明有肥胖風險。
- 淺綠色區域:BMI 指數在 16 到 18 之間,表明營養健康狀況良好。
- 深綠色區域:BMI 指數低於 16,表明體重不足狀況。
縱軸表示 BMI 指數,橫軸表示年齡(以年為單位)。深灰色曲線表示按年齡劃分的 BMI 標準線。這些曲線顯示了 BMI 隨時間的變化,有助於評估兒童體重的發展情況。例如,3 歲以下兒童的 BMI 通常在體重不足或營養健康良好的範圍內波動。隨著兒童年齡增長,BMI 有逐漸增加的趨勢,但增長速度可能因個體而異。圖表還顯示了百分位數(Percentile),表示與同年齡組兒童相比,BMI 低於或高於特定水平的兒童比例。這有助於將兒童的 BMI 與國際標準進行比較。
2.2 圖像描述
.jpg)
圖像捕捉到一個充滿情感和悲傷的場景,似乎發生在一個貧困地區,可能是一個定居點或貧民窟。圖像中心是一輛由驢拉的手推車。手推車上有一群人,包括一位看起來像領隊的年長男子、一位穿著黑色外套的女子、一位穿著灰色外套的年輕女子、一位用頭巾遮住臉的小女孩和一位穿著綠色外套的小男孩。他們似乎正在從一個被破壞的地區轉移到另一個地方。他們周圍是廢墟、垃圾和倒塌的建築物,顯示出一個艱難和匱乏的生活環境。在他們身後,有一些人正在步行或騎自行車,一些人還帶著行李。天空湛藍,但整個圖像的氛圍沉重而悲傷。這可能是一個移民、避難或其他悲慘事件的場景。
3. 多輪視覺問答和推理

-
用戶:請提供患者信息
-
助手:姓名:NGUYỄN THỊ THÁI TRINH,出生日期:09/09/1993,性別:女,地址:TÂN ĐỊNH - Q1 - TPHCM,醫保卡號:19169080,病歷號:2569501,區域代碼(K1/K2/K3):2
-
用戶:她被診斷出患有什麼疾病?
-
助手:腸道細菌感染,未確定菌種
-
用戶:患者有病史嗎?如果有,是什麼病史?
-
助手:飲食導致的鈣缺乏
-
用戶:患者進行了哪些檢查?
-
助手:[NQ286] 外周血細胞總體分析(通過激光計數儀),[NQ286] 電解質分析(鈉、鉀、氯)[血液],[NQ286] 檢測 ALT(GPT)活性 [血液],[NQ286] 檢測 AST(GOT)活性 [血液],[NQ286] 定量全鈣 [血液],[NQ286] 定量肌酐 [血液],[NQ286] 定量葡萄糖 [血液],[NQ286] 定量血尿素 [血液],[NQ286] 腹部超聲(肝臟、膽囊、胰腺、脾臟、腎臟、膀胱)
-
用戶:患者需要支付的醫療物資費用是多少?
-
助手:19,708
-
用戶:患者需要支付的輸液藥物類型有哪些,總費用是多少?
-
助手:硫酸阿托品(Syv2019)、頭孢他啶 1g(Syv2019)、GONCAL(Syv2019)、乳酸林格氏液 - 500ml(Syv2019)、5ml 注射用水(Syv2019)、0.9% 氯化鈉 - 500ml(Syv2019)、長春西汀(Syv2019)、維諾帕(Syv2019),總計 45,234 越南盾
🔧 技術細節
模型基礎
基於 erax-ai/EraX-VL-7B-V1.5 進行微調,該基礎模型在多語言處理,尤其是越南語處理上表現出色。同時參考了 Qwen 系列模型的相關技術,如 Qwen/Qwen2-VL-7B-Instruct。
基準測試
EraX-VL-7B-V1.5 在 VI-MTVQA 基準測試中與同規模甚至 10 倍規模的其他模型相比,取得了極高的性能。測試代碼可在 EraX-JS-Company/EraX-MTVQA-Benchmark 找到。
代碼實現
在代碼實現方面,使用了 transformers
庫,通過 Qwen2VLForConditionalGeneration
進行模型加載和推理。同時使用 AutoTokenizer
和 AutoProcessor
進行文本和圖像的處理。在圖像輸入方面,採用了 base64 編碼的方式將圖像轉換為文本輸入,方便模型處理。
📄 許可證
本項目採用 Apache 2.0 許可證。
📑 參考文獻
[1] Qwen team. Qwen2-VL. 2024.
[2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023).
[4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024).
[5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024).
[7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
🤝 聯繫我們
- 有關本項目的通信或 API 試用諮詢,請通過 nguyen@erax.ai 聯繫 Nguyễn Anh Nguyên。
- 關注我們的 EraX Github








