モデル概要
モデル特徴
モデル能力
使用事例
🚀 EraX-VL-7B-V1.5
EraX-VL-7B-V1.5は、多言語対応のOCR(光学文字認識)とVQA(視覚的質問応答)に特化した多モーダルモデルです。特にベトナム語に強みを持ち、医療フォームや請求書など様々な文書の認識に優れています。この機能は、病院や保険会社などの分野で非常に有用です。
🚀 クイックスタート
必要なパッケージをインストールします。
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
次に、以下のようにEraX-VL-7B-V1.5
を使用できます。
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax/EraX-VL-7B-V1.5"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
},
],
}
]
# Prepare prompt
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# Generation configs
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 1.0
generation_config.top_k = 1
generation_config.top_p = 0.9
generation_config.min_p = 0.1
generation_config.best_of = 5
generation_config.max_new_tok
✨ 主な機能
人気のある**EraX-VL-7B-V1.0モデル**に続き、EraX-VL-7B-V1.5を発表します。このモデルは、多言語対応のOCR(光学文字認識)とVQA(視覚的質問応答)に優れており、特にベトナム語に強みを持っています。医療フォーム、請求書、売買契約書、見積書、医療記録など、様々な文書の正確な認識機能があり、病院、クリニック、保険会社などの分野で非常に有用です。
Qwen/Qwen2-VL-2B-Instructをベースに微調整され、性能が向上しています。今後も改善を続け、新しいバージョンを無料でリリースする予定です。
EraX-VL-7B-V1.5の特徴の一つは、印象的な推論能力を持つマルチターンQ&Aが可能なことです。
重要な注意事項:
- EraX-VL-7B-V1.5は、Tesseractのような典型的なOCRツールではなく、多モーダルLLMベースのモデルです。効果的に使用するには、タスクに応じてプロンプトを注意深く調整する必要があります。
- このモデルは、まだ医療(X線)データセットや自動車事故データセットでは微調整されていません。2025年初頭に更新バージョンがリリースされる予定です。
EraX-VL-7B-V1.5は、EraXのLànhGPTコレクションの一員です。
- 開発者:
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
- 資金提供: Bamboo Capital Group と EraX
- モデルタイプ: 70億を超えるパラメータを持つ多モーダルTransformer
- 言語 (NLP): 主にベトナム語で、多言語対応
- ライセンス: Apache 2.0
- 微調整元: Qwen/Qwen2-VL-7B-Instruct
- プロンプト例: GitHub上の人気のプロンプト例
プロパティ | 詳細 |
---|---|
モデルタイプ | 70億を超えるパラメータを持つ多モーダルTransformer |
開発者 | Nguyễn Anh Nguyên (nguyen@erax.ai), Nguyễn Hồ Nam (BCG), Phạm Huỳnh Nhật (nhat.ph@erax.ai), Phạm Đình Thục (thuc.pd@erax.ai) |
資金提供 | Bamboo Capital Group と EraX |
言語 (NLP) | 主にベトナム語で、多言語対応 |
ライセンス | Apache 2.0 |
微調整元 | Qwen/Qwen2-VL-7B-Instruct |
プロンプト例 | GitHub上の人気のプロンプト例 |
📊 ベンチマーク
🏆 リーダーボード
EraX-VL-7B-V1.5は、同サイズの他のモデルや10倍大きいモデルと比較しても非常に高い性能を達成しており、オープンソースです。いつでもベンチマークを再実行できます。
モデル | オープンソース | VI-MTVQA |
---|---|---|
EraX-VL-7B-V1.5 🥇 | ✅ | 47.2 |
Qwen2-VL 72B 🥈 | ✘ | 41.6 |
ViGPT-VL 🥉 | ✘ | 39.1 |
EraX-VL-2B-V1.5 | ✅ | 38.2 |
EraX-VL-7B-V1 | ✅ | 37.6 |
Vintern-1B-V2 | ✅ | 37.4 |
Qwen2-VL 7B | ✅ | 30.0 |
Claude3 Opus | ✘ | 29.1 |
GPT-4o mini | ✘ | 29.1 |
GPT-4V | ✘ | 28.9 |
Gemini Ultra | ✘ | 28.6 |
InternVL2 76B | ✅ | 26.9 |
QwenVL Max | ✘ | 23.5 |
Claude3 Sonnet | ✘ | 20.8 |
QwenVL Plus | ✘ | 18.1 |
MiniCPM-V2.5 | ✅ | 15.3 |
論文でのモデル評価のテストコードは: EraX-JS-Company/EraX-MTVQA-Benchmarkで確認できます。
🎉 APIトライアル
APIアクセスの問い合わせは、nguyen@erax.aiにお問い合わせください。
💻 使用例
基本的な使用法
1. OCR - 複数画像の光学文字認識
例01: 住民身分証

表面

裏面
出典: Google Support
{
"Số thẻ": "037094012351",
"Họ và tên": "TRỊNH QUANG DUY",
"Ngày sinh": "04/09/1994",
"Giới tính": "Nam",
"Quốc tịch": "Việt Nam",
"Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
"Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
"Có giá trị đến": "04/09/2034",
"Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
"Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
"Ngày cấp": "10/12/2022",
"Cán bộ ký tên": "Nguyễn Quốc Hùng",
"Mã định danh": "IDVNM0940123513037094012351"
}
例02: 運転免許証

表面

裏面
出典: Báo Pháp luật
{
"No.":"400116012313",
"Fullname":"NGUYỄN VĂN DŨNG",
"Date_of_birth":"08/06/1979",
"Nationality":"VIỆT NAM",
"Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An, Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
"Hang_Class":"FC",
"Expires":"23/04/2027",
"Place_of_issue":"Nghệ An",
"Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022",
"Signer":"Trần Anh Tuấn",
"Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)",
"Mã số":""
}
例03: 車両登録証

出典: Báo Vietnamnet
{
"Tên chủ xe": "NGUYỄN TÔN NHUẬN",
"Địa chỉ": "KE27 Kp3 P.TTTây Q7",
"Nhãn hiệu": "HONDA",
"Số loại": "DYLAN",
"Màu sơn": "Trắng",
"Năm sản xuất": "2012",
"Số máy": "F03E-0057735",
"Số khung": "SA04F-070410",
"Dung tích": "152",
"Số chỗ ngồi": "02",
"Biển số đăng ký": "59V1-498.89",
"Đăng ký lần đầu ngày": "08/06/2004",
"Chức vụ": "Thượng tá",
"Người ký": "Trần Văn Hiểu"
}
例04: 車両登録

{
"vehicle": {
"registration_number": "30A-072.36",
"vehicle_inspection_number": "2903V-093515",
"type": "ô tô con",
"mark": "MERCEDES-BENZ",
"model_code": "C300 W204",
"engine_number": "27294732096079",
"chassis_number": "RLMGF5EX3DV005333",
"manufactured_year_and_country": "2013, Việt Nam",
"life_time_limit_to": "",
"commercial_use": "",
"modification": ""
},
"specifications": {
"wheel_formula": "4x2",
"wheel_tread": "1521/1512 (mm)",
"overall_dimension": "4650 x 1770 x 1429 (mm)",
"largest_luggage_container_dimension": "",
"wheelbase": "2760 (mm)",
"kerb_mass": "1575 (kg)",
"design_authorized_pay_load": "",
"design_authorized_total_mass": "2090/2090 (kg)",
"design_authorized_towed_mass": "",
"permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
"type_of_fuel_used": "Xăng",
"engine_displacement": "2996 (cm3)",
"max_output_per_rpm": "170(kW)/6000vph",
"number": "KC-1292285"
},
"inspection_report_number": "2905V-20953/16",
"valid_until": "31/01/2018",
"place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
"inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
"signature": "Ngọc Tuấn",
"equipped_with_tachograph": "",
"inspection_stamp_was_not_issued": "",
"notes": "Biển đăng ký nền trắng"
}
例05: 領収書

{
'Mẫu số': '01GKTKT3/001',
'Ký hiệu': 'TC/18P',
'Số': '0000030',
'Họ tên người mua hàng': None,
'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội',
'Mã số thuế': '0106235869',
'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội',
'Hình thức thanh toán': 'TM',
'STT': None,
'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến',
'Đơn vị tính': None,
'Số lượng': None,
'Đơn giá': '168.000',
'Thành tiền': '2.016.000',
'Thuế suất GTGT': None,
'Tiền thuế GTGT': None,
'Tổng cộng tiền thanh toán': '2.016.000',
'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng',
'Người bán hàng': 'Bùi Văn Hùng',
'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
}
2.1 画像キャプショニング

この画像は、子供の身体質量指数(BMI)と年齢の関係を示すBMIグラフです。グラフは、異なるBMIレベルに対応する異なる色の領域に分けられています。
- 赤色の領域: BMIが25を超え、肥満状態を示します。
- 黄色の領域: BMIが18から25の範囲内で、肥満のリスクを示します。
- 薄緑色の領域: BMIが16から18の範囲内で、栄養状態が良好であることを示します。
- 濃緑色の領域: BMIが16未満で、低体重状態を示します。
縦軸はBMIを表し、横軸は年齢(年単位)を表しています。濃灰色の曲線は、年齢別のBMI基準を示しています。これらの曲線は、時間の経過に伴うBMIの変化を示し、子供の体重の発達を評価するのに役立ちます。例えば、3歳未満の子供では、BMIは通常、低体重または栄養状態良好な範囲で変動します。子供が成長するにつれて、BMIは徐々に増加する傾向がありますが、成長速度は個人によって異なります。グラフには、パーセンタイルも表示されており、同じ年齢の子供のグループと比較して、子供のBMIが低いまたは高い割合を示しています。これにより、子供のBMIを国際基準と比較することができます。
2.2 画像キャプショニング
.jpg)
この画像は、非常に感情的で悲しいシーンを捉えており、おそらく貧困地域、または難民キャンプのような場所で撮影されたものです。画像の中心には、ラバに引かれた手押し車があります。手押し車の上には、おそらく指導者のような年配の男性、黒いコートを着た女性、灰色の服を着た若い女性、頭巾で顔を隠した小さな女の子、緑色の服を着た男の子が乗っています。彼らは、破壊された地域から別の場所へ移動しているように見えます。彼らの周りには、瓦礫、ゴミ、倒壊した建物があり、困難で貧しい生活環境を示しています。彼らの後ろには、他の人々が徒歩または自転車で移動しており、一部の人は荷物を持っています。空は青いですが、画像全体の雰囲気は重く悲しいです。これは、避難や難民のシーン、または何らかの悲惨な出来事を表している可能性があります。
3. マルチターン視覚質問応答と推論

-
ユーザー: 患者の情報を教えてください。
-
アシスタント: 名前: NGUYỄN THỊ THÁI TRINH, 生年月日: 09/09/1993, 性別: 女性, 住所: TÂN ĐỊNH - Q1 - TPHCM, 健康保険証番号: 19169080, 診察番号: 2569501, 地域コード (K1/K2/K3): 2
-
ユーザー: 彼らは何の病気と診断されましたか?
-
アシスタント: 細菌による腸感染症、菌種不明
-
ユーザー: 患者に既往歴はありますか?ある場合、それは何ですか?
-
アシスタント: 食事によるカルシウム欠乏
-
ユーザー: 患者はどのような検査を受けましたか?
-
アシスタント: [NQ286] 末梢血細胞総分析(レーザーカウンターによる), [NQ286] 電解質パネル(ナトリウム、カリウム、塩化物) [血液], [NQ286] ALT(GPT)活性測定 [血液], [NQ286] AST(GOT)活性測定 [血液], [NQ286] 総カルシウム定量 [血液], [NQ286] クレアチニン定量 [血液], [NQ286] グルコース定量 [血液], [NQ286] 血中尿素定量 [血液], [NQ286] 腹部超音波(肝臓、胆嚢、膵臓、脾臓、腎臓、膀胱)
-
ユーザー: 患者が支払う必要がある医療用品の費用はいくらですか?
-
アシスタント: 19,708
-
ユーザー: 患者が支払う必要がある輸液薬の種類と総額はいくらですか?
-
アシスタント: Atropin Sulfat (Syv2019), Bicefzidim 1g (Syv2019), GONCAL (Syv2019), Lactated Ringer's-500ml (Syv2019), Nước cất pha tiêm 5ml (Syv2019), Sodium Chloride 0.9% -500ml (Syv2019), Vincomid (Syv2019), Vinopa (Syv2019), 合計45,234ドン
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。








