EraX-VL-7B-V1.5オープンソース多モーダルモデル - 無料デプロイでOCRと多言語視覚質問応答をサポート、特にベトナム語です

ホーム

Erax VL 7B V1.5

mxw1998によって開発

EraX-VL-7B-V1.5は、光学文字認識（OCR）と視覚質問応答（VQA）に特化した強力なマルチモーダルモデルで、多言語環境で優れた性能を発揮し、特にベトナム語に長けています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ベトナム語OCR専門家 #マルチモーダル医療文書処理 #マルチターン視覚推論

ダウンロード数 26

リリース時間 : 4/23/2025

モデル概要

Qwen/Qwen2-VL-7B-Instructをファインチューニングしたマルチモーダルモデルで、文書認識、視覚質問応答、マルチターン推論に優れ、特にベトナム語処理能力を最適化しています。

モデル特徴

優れたベトナム語OCR能力

医療フォーム、請求書、身分証明書などのベトナム語文書向けに最適化され、高い認識精度を実現

マルチターン視覚質問応答

画像に基づく複雑なマルチターン質問応答と推論をサポート

多言語サポート

ベトナム語に加え、英語と中国語の処理もサポート

オープンソースモデル

Apache 2.0ライセンスでオープンソース化されており、自由に使用・改変可能

モデル能力

文書情報抽出

画像内容記述

マルチターン視覚質問応答

多言語テキスト認識

医療フォーム処理

商業書類分析

使用事例

医療健康

医療処方箋認識

医療処方箋から患者情報、薬品リスト、投与量を抽出

ベトナム語医療文書のキー情報を正確に認識

健康診断レポート分析

健康診断レポートの各種指標と診断結果を解析

健康診断データを構造化して出力

金融サービス

請求書処理

請求書から金額、税番号、商品情報を自動認識

財務処理効率の向上

本人確認

身分証明書から個人情報を抽出

KYCプロセスの簡素化

政府サービス

書類処理

運転免許証、車両登録証などの各種政府発行書類を処理

書類情報入力の自動化

🚀 EraX-VL-7B-V1.5

EraX-VL-7B-V1.5は、多言語対応のOCR（光学文字認識）とVQA（視覚的質問応答）に特化した多モーダルモデルです。特にベトナム語に強みを持ち、医療フォームや請求書など様々な文書の認識に優れています。この機能は、病院や保険会社などの分野で非常に有用です。

Logo

🚀 クイックスタート

必要なパッケージをインストールします。

python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation

次に、以下のようにEraX-VL-7B-V1.5を使用できます。

import os
import base64
import json

import cv2
import numpy as np
import matplotlib.pyplot as  plt

import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model_path = "erax/EraX-VL-7B-V1.5"

model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
    device_map="auto"
)

tokenizer =  AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)

min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
     model_path,
     min_pixels=min_pixels,
     max_pixels=max_pixels,
 )

image_path ="image.jpg"

with open(image_path, "rb") as f:
    encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": base64_data,
            },
            {
                "type": "text",
                "text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
            },
        ],
    }
]

# Prepare prompt
tokenized_text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

image_inputs, video_inputs = process_vision_info(messages)

inputs = processor(
    text=[ tokenized_text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Generation configs
generation_config =  model.generation_config
generation_config.do_sample   = True
generation_config.temperature = 1.0
generation_config.top_k       = 1
generation_config.top_p       = 0.9
generation_config.min_p       = 0.1
generation_config.best_of     = 5
generation_config.max_new_tok

✨ 主な機能

人気のある**EraX-VL-7B-V1.0モデル**に続き、EraX-VL-7B-V1.5を発表します。このモデルは、多言語対応のOCR（光学文字認識）とVQA（視覚的質問応答）に優れており、特にベトナム語に強みを持っています。医療フォーム、請求書、売買契約書、見積書、医療記録など、様々な文書の正確な認識機能があり、病院、クリニック、保険会社などの分野で非常に有用です。

Qwen/Qwen2-VL-2B-Instructをベースに微調整され、性能が向上しています。今後も改善を続け、新しいバージョンを無料でリリースする予定です。

EraX-VL-7B-V1.5の特徴の一つは、印象的な推論能力を持つマルチターンQ&Aが可能なことです。

重要な注意事項:

EraX-VL-7B-V1.5は、Tesseractのような典型的なOCRツールではなく、多モーダルLLMベースのモデルです。効果的に使用するには、タスクに応じてプロンプトを注意深く調整する必要があります。
このモデルは、まだ医療（X線）データセットや自動車事故データセットでは微調整されていません。2025年初頭に更新バージョンがリリースされる予定です。

EraX-VL-7B-V1.5は、EraXのLànhGPTコレクションの一員です。

開発者:
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
資金提供: Bamboo Capital Group と EraX
モデルタイプ: 70億を超えるパラメータを持つ多モーダルTransformer
言語 (NLP): 主にベトナム語で、多言語対応
ライセンス: Apache 2.0
微調整元: Qwen/Qwen2-VL-7B-Instruct
プロンプト例: GitHub上の人気のプロンプト例

プロパティ	詳細
モデルタイプ	70億を超えるパラメータを持つ多モーダルTransformer
開発者	Nguyễn Anh Nguyên (nguyen@erax.ai), Nguyễn Hồ Nam (BCG), Phạm Huỳnh Nhật (nhat.ph@erax.ai), Phạm Đình Thục (thuc.pd@erax.ai)
資金提供	Bamboo Capital Group と EraX
言語 (NLP)	主にベトナム語で、多言語対応
ライセンス	Apache 2.0
微調整元	Qwen/Qwen2-VL-7B-Instruct
プロンプト例	GitHub上の人気のプロンプト例

📊 ベンチマーク

🏆 リーダーボード

EraX-VL-7B-V1.5は、同サイズの他のモデルや10倍大きいモデルと比較しても非常に高い性能を達成しており、オープンソースです。いつでもベンチマークを再実行できます。

モデル	オープンソース	VI-MTVQA
EraX-VL-7B-V1.5 🥇	✅	47.2
Qwen2-VL 72B 🥈	✘	41.6
ViGPT-VL 🥉	✘	39.1
EraX-VL-2B-V1.5	✅	38.2
EraX-VL-7B-V1	✅	37.6
Vintern-1B-V2	✅	37.4
Qwen2-VL 7B	✅	30.0
Claude3 Opus	✘	29.1
GPT-4o mini	✘	29.1
GPT-4V	✘	28.9
Gemini Ultra	✘	28.6
InternVL2 76B	✅	26.9
QwenVL Max	✘	23.5
Claude3 Sonnet	✘	20.8
QwenVL Plus	✘	18.1
MiniCPM-V2.5	✅	15.3

論文でのモデル評価のテストコードは: EraX-JS-Company/EraX-MTVQA-Benchmarkで確認できます。

🎉 APIトライアル

APIアクセスの問い合わせは、nguyen@erax.aiにお問い合わせください。

💻 使用例

基本的な使用法

1. OCR - 複数画像の光学文字認識

例01: 住民身分証

表面

裏面

出典: Google Support

{
    "Số thẻ": "037094012351",
    "Họ và tên": "TRỊNH QUANG DUY",
    "Ngày sinh": "04/09/1994",
    "Giới tính": "Nam",
    "Quốc tịch": "Việt Nam",
    "Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
    "Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
    "Có giá trị đến": "04/09/2034",
    "Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
    "Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
    "Ngày cấp": "10/12/2022",
    "Cán bộ ký tên": "Nguyễn Quốc Hùng",
    "Mã định danh": "IDVNM0940123513037094012351"
}

例02: 運転免許証

表面

裏面

出典: Báo Pháp luật

{
  "No.":"400116012313",
  "Fullname":"NGUYỄN VĂN DŨNG",
  "Date_of_birth":"08/06/1979",
  "Nationality":"VIỆT NAM",
  "Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An, Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
  "Hang_Class":"FC",
  "Expires":"23/04/2027",
  "Place_of_issue":"Nghệ An",
  "Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022",
  "Signer":"Trần Anh Tuấn",
  "Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)",
  "Mã số":""
}

例03: 車両登録証

出典: Báo Vietnamnet

{
    "Tên chủ xe": "NGUYỄN TÔN NHUẬN",
    "Địa chỉ": "KE27 Kp3 P.TTTây Q7",
    "Nhãn hiệu": "HONDA",
    "Số loại": "DYLAN",
    "Màu sơn": "Trắng",
    "Năm sản xuất": "2012",
    "Số máy": "F03E-0057735",
    "Số khung": "SA04F-070410",
    "Dung tích": "152",
    "Số chỗ ngồi": "02",
    "Biển số đăng ký": "59V1-498.89",
    "Đăng ký lần đầu ngày": "08/06/2004",
    "Chức vụ": "Thượng tá",
    "Người ký": "Trần Văn Hiểu"
}

例04: 車両登録

出典: https://llumar.com.vn

{
    "vehicle": {
        "registration_number": "30A-072.36",
        "vehicle_inspection_number": "2903V-093515",
        "type": "ô tô con",
        "mark": "MERCEDES-BENZ",
        "model_code": "C300 W204",
        "engine_number": "27294732096079",
        "chassis_number": "RLMGF5EX3DV005333",
        "manufactured_year_and_country": "2013, Việt Nam",
        "life_time_limit_to": "",
        "commercial_use": "",
        "modification": ""
    },
    "specifications": {
        "wheel_formula": "4x2",
        "wheel_tread": "1521/1512 (mm)",
        "overall_dimension": "4650 x 1770 x 1429 (mm)",
        "largest_luggage_container_dimension": "",
        "wheelbase": "2760 (mm)",
        "kerb_mass": "1575 (kg)",
        "design_authorized_pay_load": "",
        "design_authorized_total_mass": "2090/2090 (kg)",
        "design_authorized_towed_mass": "",
        "permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
        "type_of_fuel_used": "Xăng",
        "engine_displacement": "2996 (cm3)",
        "max_output_per_rpm": "170(kW)/6000vph",
        "number": "KC-1292285"
    },
    "inspection_report_number": "2905V-20953/16",
    "valid_until": "31/01/2018",
    "place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
    "inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
    "signature": "Ngọc Tuấn",
    "equipped_with_tachograph": "",
    "inspection_stamp_was_not_issued": "",
    "notes": "Biển đăng ký nền trắng"
}

例05: 領収書

出典: https://tintucketoan.com/

{
    'Mẫu số': '01GKTKT3/001', 
    'Ký hiệu': 'TC/18P', 
    'Số': '0000030', 
    'Họ tên người mua hàng': None, 
    'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội', 
    'Mã số thuế': '0106235869', 
    'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội', 
    'Hình thức thanh toán': 'TM', 
    'STT': None, 
    'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến', 
    'Đơn vị tính': None, 
    'Số lượng': None, 
    'Đơn giá': '168.000', 
    'Thành tiền': '2.016.000', 
    'Thuế suất GTGT': None, 
    'Tiền thuế GTGT': None, 
    'Tổng cộng tiền thanh toán': '2.016.000', 
    'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng', 
    'Người bán hàng': 'Bùi Văn Hùng', 
    'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
}

2.1 画像キャプショニング

この画像は、子供の身体質量指数（BMI）と年齢の関係を示すBMIグラフです。グラフは、異なるBMIレベルに対応する異なる色の領域に分けられています。

赤色の領域: BMIが25を超え、肥満状態を示します。
黄色の領域: BMIが18から25の範囲内で、肥満のリスクを示します。
薄緑色の領域: BMIが16から18の範囲内で、栄養状態が良好であることを示します。
濃緑色の領域: BMIが16未満で、低体重状態を示します。

縦軸はBMIを表し、横軸は年齢（年単位）を表しています。濃灰色の曲線は、年齢別のBMI基準を示しています。これらの曲線は、時間の経過に伴うBMIの変化を示し、子供の体重の発達を評価するのに役立ちます。例えば、3歳未満の子供では、BMIは通常、低体重または栄養状態良好な範囲で変動します。子供が成長するにつれて、BMIは徐々に増加する傾向がありますが、成長速度は個人によって異なります。グラフには、パーセンタイルも表示されており、同じ年齢の子供のグループと比較して、子供のBMIが低いまたは高い割合を示しています。これにより、子供のBMIを国際基準と比較することができます。

2.2 画像キャプショニング

この画像は、非常に感情的で悲しいシーンを捉えており、おそらく貧困地域、または難民キャンプのような場所で撮影されたものです。画像の中心には、ラバに引かれた手押し車があります。手押し車の上には、おそらく指導者のような年配の男性、黒いコートを着た女性、灰色の服を着た若い女性、頭巾で顔を隠した小さな女の子、緑色の服を着た男の子が乗っています。彼らは、破壊された地域から別の場所へ移動しているように見えます。彼らの周りには、瓦礫、ゴミ、倒壊した建物があり、困難で貧しい生活環境を示しています。彼らの後ろには、他の人々が徒歩または自転車で移動しており、一部の人は荷物を持っています。空は青いですが、画像全体の雰囲気は重く悲しいです。これは、避難や難民のシーン、または何らかの悲惨な出来事を表している可能性があります。

3. マルチターン視覚質問応答と推論

出典: https://kenh14.vn

ユーザー: 患者の情報を教えてください。
アシスタント: 名前: NGUYỄN THỊ THÁI TRINH, 生年月日: 09/09/1993, 性別: 女性, 住所: TÂN ĐỊNH - Q1 - TPHCM, 健康保険証番号: 19169080, 診察番号: 2569501, 地域コード (K1/K2/K3): 2
ユーザー: 彼らは何の病気と診断されましたか？
アシスタント: 細菌による腸感染症、菌種不明
ユーザー: 患者に既往歴はありますか？ある場合、それは何ですか？
アシスタント: 食事によるカルシウム欠乏
ユーザー: 患者はどのような検査を受けましたか？
アシスタント: [NQ286] 末梢血細胞総分析（レーザーカウンターによる）, [NQ286] 電解質パネル（ナトリウム、カリウム、塩化物） [血液], [NQ286] ALT（GPT）活性測定 [血液], [NQ286] AST（GOT）活性測定 [血液], [NQ286] 総カルシウム定量 [血液], [NQ286] クレアチニン定量 [血液], [NQ286] グルコース定量 [血液], [NQ286] 血中尿素定量 [血液], [NQ286] 腹部超音波（肝臓、胆嚢、膵臓、脾臓、腎臓、膀胱）
ユーザー: 患者が支払う必要がある医療用品の費用はいくらですか？
アシスタント: 19,708
ユーザー: 患者が支払う必要がある輸液薬の種類と総額はいくらですか？
アシスタント: Atropin Sulfat (Syv2019), Bicefzidim 1g (Syv2019), GONCAL (Syv2019), Lactated Ringer's-500ml (Syv2019), Nước cất pha tiêm 5ml (Syv2019), Sodium Chloride 0.9% -500ml (Syv2019), Vincomid (Syv2019), Vinopa (Syv2019), 合計45,234ドン