E

Erax VL 7B V1.5

Developed by mxw1998
EraX-VL-7B-V1.5は、光学文字認識(OCR)と視覚質問応答(VQA)に特化した強力なマルチモーダルモデルで、多言語環境で優れた性能を発揮し、特にベトナム語に長けています。
Downloads 26
Release Time : 4/23/2025

Model Overview

Qwen/Qwen2-VL-7B-Instructをファインチューニングしたマルチモーダルモデルで、文書認識、視覚質問応答、マルチターン推論に優れ、特にベトナム語処理能力を最適化しています。

Model Features

優れたベトナム語OCR能力
医療フォーム、請求書、身分証明書などのベトナム語文書向けに最適化され、高い認識精度を実現
マルチターン視覚質問応答
画像に基づく複雑なマルチターン質問応答と推論をサポート
多言語サポート
ベトナム語に加え、英語と中国語の処理もサポート
オープンソースモデル
Apache 2.0ライセンスでオープンソース化されており、自由に使用・改変可能

Model Capabilities

文書情報抽出
画像内容記述
マルチターン視覚質問応答
多言語テキスト認識
医療フォーム処理
商業書類分析

Use Cases

医療健康
医療処方箋認識
医療処方箋から患者情報、薬品リスト、投与量を抽出
ベトナム語医療文書のキー情報を正確に認識
健康診断レポート分析
健康診断レポートの各種指標と診断結果を解析
健康診断データを構造化して出力
金融サービス
請求書処理
請求書から金額、税番号、商品情報を自動認識
財務処理効率の向上
本人確認
身分証明書から個人情報を抽出
KYCプロセスの簡素化
政府サービス
書類処理
運転免許証、車両登録証などの各種政府発行書類を処理
書類情報入力の自動化
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase