🚀 General OCR Theory: Towards OCR - 2.0 via a Unified End - to - end Model
画像とテキストを入力としてテキストを出力するモデルで、Transformersライブラリを使用し、多言語に対応したOCR関連のモデルです。
プロパティ |
詳細 |
パイプラインタグ |
画像とテキストからテキストへの変換 |
ライブラリ名 |
Transformers |
言語 |
多言語 |
タグ |
got、vision - language、ocr2.0、custom_code |
ライセンス |
Apache - 2.0 |
🔋オンラインデモ | 🌟GitHub | 📜論文
Haoran Wei*, Chenglong Liu*, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

🚀 クイックスタート
Huggingface Transformersを使用してCPU上で推論を行う方法について説明します。Python 3.10でテストされた要件は以下の通りです。
torch==2.0.1
torchvision==0.15.2
transformers==4.37.2
tiktoken==0.6.0
verovio==4.3.1
accelerate==0.28.0
💻 使用例
基本的な使用法
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('srimanth-d/GOT_CPU', trust_remote_code=True)
model = AutoModel.from_pretrained('srimanth-d/GOT_CPU', trust_remote_code=True, low_cpu_mem_usage=True, use_safetensors=True, pad_token_id=tokenizer.eos_token_id)
model = model.eval()
image_file = 'xxx.jpg'
res = model.chat(tokenizer, image_file, ocr_type='ocr')
print(res)
'ocr_type'、'ocr_box'、'ocr_color'、および'render'に関する詳細は、GitHubで確認できます。トレーニングコードはGitHubで入手できます。
📚 ドキュメント
👏 当チームの他のマルチモーダルプロジェクトをご探索ください。
Vary | Fox | OneChart
📄 ライセンス
このプロジェクトはApache - 2.0ライセンスの下で公開されています。
📜 引用
もしこの研究が役に立った場合は、以下の論文を引用し、このプロジェクトをいいねしていただけると幸いです。
@article{wei2024general,
title={General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model},
author={Wei, Haoran and Liu, Chenglong and Chen, Jinyue and Wang, Jia and Kong, Lingyu and Xu, Yanming and Ge, Zheng and Zhao, Liang and Sun, Jianjian and Peng, Yuang and others},
journal={arXiv preprint arXiv:2409.01704},
year={2024}
}
@article{liu2024focus,
title={Focus Anywhere for Fine-grained Multi-page Document Understanding},
author={Liu, Chenglong and Wei, Haoran and Chen, Jinyue and Kong, Lingyu and Ge, Zheng and Zhu, Zining and Zhao, Liang and Sun, Jianjian and Han, Chunrui and Zhang, Xiangyu},
journal={arXiv preprint arXiv:2405.14295},
year={2024}
}
@article{wei2023vary,
title={Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models},
author={Wei, Haoran and Kong, Lingyu and Chen, Jinyue and Zhao, Liang and Ge, Zheng and Yang, Jinrong and Sun, Jianjian and Han, Chunrui and Zhang, Xiangyu},
journal={arXiv preprint arXiv:2312.06109},
year={2023}
}