E

Erax VL 7B V1.5

mxw1998によって開発
EraX-VL-7B-V1.5は、光学文字認識(OCR)と視覚質問応答(VQA)に特化した強力なマルチモーダルモデルで、多言語環境で優れた性能を発揮し、特にベトナム語に長けています。
ダウンロード数 26
リリース時間 : 4/23/2025

モデル概要

Qwen/Qwen2-VL-7B-Instructをファインチューニングしたマルチモーダルモデルで、文書認識、視覚質問応答、マルチターン推論に優れ、特にベトナム語処理能力を最適化しています。

モデル特徴

優れたベトナム語OCR能力
医療フォーム、請求書、身分証明書などのベトナム語文書向けに最適化され、高い認識精度を実現
マルチターン視覚質問応答
画像に基づく複雑なマルチターン質問応答と推論をサポート
多言語サポート
ベトナム語に加え、英語と中国語の処理もサポート
オープンソースモデル
Apache 2.0ライセンスでオープンソース化されており、自由に使用・改変可能

モデル能力

文書情報抽出
画像内容記述
マルチターン視覚質問応答
多言語テキスト認識
医療フォーム処理
商業書類分析

使用事例

医療健康
医療処方箋認識
医療処方箋から患者情報、薬品リスト、投与量を抽出
ベトナム語医療文書のキー情報を正確に認識
健康診断レポート分析
健康診断レポートの各種指標と診断結果を解析
健康診断データを構造化して出力
金融サービス
請求書処理
請求書から金額、税番号、商品情報を自動認識
財務処理効率の向上
本人確認
身分証明書から個人情報を抽出
KYCプロセスの簡素化
政府サービス
書類処理
運転免許証、車両登録証などの各種政府発行書類を処理
書類情報入力の自動化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase