blip2-opt-6.7b开源视觉语言模型 - 免费实现图像文本生成与视觉问答

首页

Blip2 Opt 6.7b

由 Salesforce 开发

BLIP-2是基于OPT-6.7b的视觉语言模型，通过冻结图像编码器和大型语言模型进行预训练，支持图像到文本生成和视觉问答等任务。

图像生成文本

Transformers

英语开源协议:MIT #图像描述生成 #视觉问答 #多模态融合

下载量 5,871

发布时间 : 2/7/2023

模型简介

BLIP-2包含CLIP图像编码器、查询转换器(Q-Former)和OPT-6.7b语言模型，通过查询转换器桥接视觉和语言模态，实现图像条件下的文本生成。

模型特点

跨模态预训练

通过冻结预训练的图像编码器和语言模型，仅训练查询转换器来桥接视觉和语言模态

高效架构设计

使用轻量级Q-Former转换器连接视觉和语言模型，减少训练参数同时保持强大性能

多任务支持

单一模型支持图像描述生成、视觉问答和基于图像的对话等多种视觉语言任务

模型能力

图像到文本生成

视觉问答

图像条件对话

多模态理解

使用案例

内容生成

自动图像描述

为图像生成自然语言描述

可生成准确描述图像内容的文本

智能交互

视觉问答系统

回答关于图像内容的自然语言问题

能理解图像内容并回答相关问题

辅助技术

视觉辅助工具

为视障人士描述图像内容

提供图像内容的详细语音描述

🚀 BLIP-2, OPT-6.7b，仅预训练版本

BLIP-2模型借助了 OPT-6.7b（一个拥有67亿参数的大语言模型）。它由Li等人在论文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 中提出，并首次在此仓库发布。

免责声明：发布BLIP-2的团队未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

✨ 主要特性

多任务能力：可用于图像描述、视觉问答、类聊天对话等多种任务。
架构创新：由图像编码器、查询变换器（Q-Former）和大语言模型组成，通过查询变换器弥合图像编码器和大语言模型嵌入空间的差距。

📚 详细文档

模型描述

BLIP-2由3个模型组成：一个类似CLIP的图像编码器、一个查询变换器（Q-Former）和一个大语言模型。

作者从预训练检查点初始化图像编码器和大语言模型的权重，并在训练查询变换器时保持它们冻结。查询变换器是一个类似BERT的变换器编码器，它将一组“查询令牌”映射到查询嵌入，从而弥合图像编码器和大语言模型嵌入空间之间的差距。

该模型的目标很简单，即在给定查询嵌入和前文的情况下，预测下一个文本令牌。

模型架构

这使得该模型可用于以下任务：

图像描述
视觉问答（VQA）
通过将图像和之前的对话作为提示输入模型进行类聊天对话

直接使用和下游使用

你可以使用原始模型在给定图像和可选文本的情况下进行条件文本生成。请查看模型中心以查找针对你感兴趣的任务进行微调的版本。

偏差、风险、局限性和伦理考量

BLIP2-OPT使用现成的OPT作为语言模型，它继承了Meta模型卡片中提到的相同风险和局限性。

与其他因训练数据多样性（或缺乏多样性）对模型质量产生下游影响的大语言模型一样，OPT-175B在偏差和安全性方面存在局限性。OPT-175B在生成多样性和幻觉方面也可能存在质量问题。一般来说，OPT-175B无法避免困扰现代大语言模型的诸多问题。

BLIP2在从互联网收集的图像 - 文本数据集（如 LAION ）上进行了微调。因此，该模型本身可能容易生成同样不适当的内容，或复制底层数据中固有的偏差。

BLIP2尚未在现实世界应用中进行测试，不应直接部署到任何应用程序中。研究人员应首先仔细评估该模型在其部署的特定环境中的安全性和公平性。

伦理考量

此版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导，请参考我们的AUP和AI AUP。