I

Internvit 6B 448px V1 0

Developed by OpenGVLab
InternViT-6B-448px-V1-0是一个视觉基础模型,专注于图像特征提取,支持448x448分辨率,增强了OCR能力和中文对话支持。
Downloads 24
Release Time : 1/30/2024

Model Overview

该模型是一个视觉基础模型,主要用于图像特征提取,特别适合构建多模态大语言模型(MLLM)。它通过提升分辨率和优化特征提取层,增强了光学字符识别(OCR)能力,并改进了对中文对话的支持。

Model Features

高分辨率支持
支持448x448的高分辨率图像输入,提升了细节捕捉能力。
增强OCR能力
通过优化训练数据和模型结构,显著提升了光学字符识别(OCR)的准确性。
中文对话优化
特别优化了对中文对话的支持,适合中文多模态应用场景。
高效特征提取
使用倒数第四层的特征输出,特别适合构建多模态大语言模型(MLLM)。

Model Capabilities

图像特征提取
光学字符识别(OCR)
多模态对话支持
高分辨率图像处理

Use Cases

多模态应用
多模态对话系统
构建支持图像和文本交互的对话系统,特别是中文环境。
提升对话系统的视觉理解和响应能力。
文档OCR处理
用于高精度文档图像的文字识别和提取。
提高OCR的准确率和处理效率。
计算机视觉
图像特征提取
用于下游任务的图像特征提取,如分类、检测等。
提供高质量的特征表示。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase