H

H2ovl Mississippi 800m

由h2oai開發
H2O.ai推出的8億參數視覺語言模型,專注於OCR和文檔理解,性能優異
下載量 77.67k
發布時間 : 10/16/2024

模型概述

H2OVL-Mississippi-800M是一款緊湊而強大的視覺語言模型,在文本識別方面表現卓越,特別適合OCR和文檔處理任務。基於H2O-Danube語言模型架構,整合了視覺和語言處理能力。

模型特點

緊湊高效
僅8億參數,在性能和效率之間取得良好平衡
卓越的OCR能力
在OCRBench的文本識別部分表現優異,超越許多更大的模型
多模態整合
無縫整合視覺和語言處理能力,支持多種視覺語言任務
專業訓練數據
使用1900萬圖像-文本對訓練,專注於OCR、文檔理解及圖表解析

模型能力

文本識別(OCR)
文檔理解
圖表解析
表格處理
圖像-文本理解
多模態推理

使用案例

文檔處理
掃描文檔文字識別
從掃描的PDF或圖像中提取文字內容
在OCRBench上獲得751分的高分
表格數據提取
從複雜表格中提取結構化數據
商業智能
圖表數據解析
從商業圖表中提取關鍵數據點
報告自動分析
分析包含文字和圖表的商業報告
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase