olmOCR-7B-thai-v2开源OCR模型 - 免费部署精准识别泰语文本，支持多语言表格

首页

Olmocr 7B Thai V2

由 Adun 开发

优化后的olmOCR模型，专注于提升泰语文本识别的准确性，支持多语言和表格格式。

文字识别

Safetensors

其他开源协议:MIT #泰语OCR优化 #多语言文档识别 #高精度表格解析

下载量 917

发布时间 : 4/21/2025

模型简介

olmOCR是一个基于视觉语言模型的OCR工具，经过微调以增强对泰语字符和数字的识别能力，适用于从PDF等文档中提取文本。

模型特点

多语言与表格支持

支持多种语言字符及表格格式的识别。

开源特性

提供模型权重、微调数据集和推理代码，便于开发者进行定制开发。

高准确性

基于250K文档进行微调，确保识别的准确性。

API与CLI支持

可通过命令行或API（vLLM、SGlang）调用，便于集成到现有系统中。

模型能力

泰语文本识别

多语言字符识别

表格格式识别

PDF文本提取

使用案例

文档处理

泰语文档数字化

将泰语PDF文档转换为可编辑的纯文本。

提升泰语字符识别的准确率。

多语言表格识别

从包含多种语言和表格的文档中提取结构化数据。

支持复杂的文档格式。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

Olmocr 7B Thai V2

模型简介

模型特点

模型能力

使用案例

🚀 😃 优化 olmOCR 对泰语的支持

🚀 快速开始

✨ 主要特性

🔧 技术细节

📄 许可证

😃 咨询信息