Spydaz_Web_AI_Llava开源多模态聊天机器人 - 免费使用优化聊天体验

首页

Spydaz Web AI Llava

由 LeroyDyer 开发

LLaVa是一个开源多模态聊天机器人，通过对LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行微调训练而成，专门为聊天/指令优化的多模态版本LLM。

图像生成文本

Transformers

支持多种语言#多模态指令跟随 #视觉语言连接 #学术VQA优化

下载量 30

发布时间 : 9/17/2024

模型简介

基于Transformer架构的自回归语言模型，支持视觉和语言的多模态交互，适用于复杂的指令跟随和聊天场景。

模型特点

多模态能力

同时处理视觉和语言输入，实现跨模态理解与生成

高效训练

仅使用120万公开数据，在单节点8-A100上1天完成训练

非洲语言支持

特别优化对多种非洲语言的处理能力

学术任务优化

针对学术VQA任务进行专项优化

模型能力

视觉问答

多模态对话

跨语言翻译

指令跟随

知识推理

图像描述生成

使用案例

教育

多语言学习助手

通过视觉和语言交互辅助语言学习

支持14种语言的学习交流

医疗

医疗视觉问答

解析医学图像并回答相关问题

企业

多模态客服系统

处理包含图像和文本的客户咨询

🚀 SpydazWeb AI 多模型融合项目

本项目基于多个基础模型，融合了丰富的训练数据集，支持多种语言，具备多任务处理能力，可广泛应用于问答、代码处理、医疗等多个领域，为用户提供强大且多样化的人工智能服务。

🚀 快速开始

以下是使用该模型进行图像问答的示例代码：

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration

model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf")
processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")

prompt = "USER: <image>\nWhat's the content of the image? ASSISTANT:"
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_new_tokens=15)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

✨ 主要特性

多基础模型支持

基于多个基础模型，包括LeroyDyer/SpydazWeb_AI_CyberTron_Ultra_7b、LeroyDyer/LCARS_AI_StarTrek_Computer等，融合了不同模型的优势。

多语言支持

支持英语、斯瓦希里语、伊博语等多种语言，具有广泛的语言适应性。

丰富的训练数据集

使用了众多训练数据集，如gretelai/synthetic_text_to_sql、HuggingFaceTB/cosmopedia等，涵盖了多个领域，提升了模型的泛化能力。

多任务处理能力

可处理多种任务，包括问答、代码处理、医疗任务、翻译等，具备强大的多功能性。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

# 图像问答示例
from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration

model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf")
processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")

prompt = "USER: <image>\nWhat's the content of the image? ASSISTANT:"
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_new_tokens=15)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

高级用法

文档未提供高级用法示例，暂不展示。

📚 详细文档

基础模型

属性	详情
基础模型列表	LeroyDyer/SpydazWeb_AI_CyberTron_Ultra_7b、LeroyDyer/LCARS_AI_StarTrek_Computer、LeroyDyer/_Spydaz_Web_AI_ActionQA_Project等

支持语言

支持的语言包括英语（en）、斯瓦希里语（sw）、伊博语（ig）、索马里语（so）、西班牙语（es）、加泰罗尼亚语（ca）、科萨语（xh）、祖鲁语（zu）、豪萨语（ha）、埃维语（tw）、南非荷兰语（af）、印地语（hi）、班巴拉语（bm）、巽他语（su）。

训练数据集

属性	详情
训练数据集列表	gretelai/synthetic_text_to_sql、HuggingFaceTB/cosmopedia、teknium/OpenHermes - 2.5等

训练任务

训练制度

阿尔帕卡（Alpaca）
ChatML / OpenAI / MistralAI
文本生成
问答（聊天）
规划
指令/输入/响应（指导）
Mistral标准提示
翻译任务
实体/主题检测
书籍召回
编码挑战、代码反馈、代码总结、代码注释、代码规划和解释：软件生成任务
代理排名和响应分析
医疗任务
- PubMed
- 诊断
- 精神病学
- 咨询
- 生活指导
- 笔记记录
- 医疗微笑
- 医疗报告
虚拟实验室模拟
思维链方法
单样本/多样本提示任务

通用内部方法

该模型经过多任务操作以及检索增强生成（RAG）和函数调用的训练，是一个功能完备且无审查限制的模型。它在Hugging Face Hub和Kaggle的多个数据集上进行了训练，主要关注以下方法：

思维链
逐步规划
思维树
思维森林
思维图
代理生成：投票、排名等；双代理响应生成

训练哲学

优先关注注意力机制的好处

增强上下文理解：微调注意力层有助于模型更好地理解输入数据中的关系和依赖，从而产生更具上下文相关性和准确性的输出。
改进生成控制：可以更好地控制模型的生成过程，引导其关注输入的特定方面，以产生符合预期目标的输出。
生成更具创造性和多样性的输出：通过优化注意力机制，鼓励模型探索更多可能性，生成更具创造性和多样性的响应。
减少过拟合：以注意力为重点的微调可以防止模型过拟合训练数据中的特定模式，从而在新输入上实现更好的泛化和更稳健的性能。

个人训练方法

个人训练方法不拘一格，优先创建对话，让模型从不同角度学习新主题。角色扮演和对话训练是帮助模型自然交流的有效策略，当前训练不应过度关注技术方法和任务期望，而忽略了模型个性的表达。

分词器相关

什么是分词器

分词器是一种将文本分解为单个“标记”以便进行分析的工具，可用于机器学习模型的文本预处理，或识别数据中的特定模式和序列。常见的分词器类型包括基于单词、字符或句子的分词器，各有优缺点。

分词器的使用

确定任务：明确使用分词器要实现的任务，如文本分词或句子分类。
选择合适的分词器：根据任务和数据特征选择合适的分词器。对于自然语言处理任务，通常首选基于单词的分词器；对于光学字符识别（OCR）和图像识别，基于字符的分词器可能更合适；对于理解复杂语言结构（如多句子文档），基于句子的分词器很有用。
数据预处理：将分词器应用于数据，将其转换为标记。这可能涉及对单词进行分词、去除标点符号或将文本拆分为句子。
集成到模型中：将分词后的数据集成到机器学习模型中进行训练或推理。
评估性能：评估使用分词后数据的模型性能，并在必要时进行微调以提高准确性。
完善工作流程：将分词后的数据集成到完整的工作流程中，并使用更新后的数据集训练模型。

分词器的历史

分词的概念随着时间不断发展，早期方法侧重于简单的字符级分割，20世纪60年代发展为基于单词的方法。基于单词的分词器在20世纪70年代和80年代流行起来，使用基于规则的方法识别单词。随后几十年，开发了更高级的方法，如一元、二元和三元模型。20世纪末，基于字符的分词器因其处理数字和标点等非单词字符的能力而受到关注。21世纪初，随着字符级自然语言处理任务（如词性标注）的兴起，这些方法得到进一步改进。现代分词器，特别是用于大型语言模型（如GPT - 3）的分词器，采用子词标记来捕捉单词之间的细微差别，同时保持效率。这种方法由BERT于2018年开创，此后成为自然语言处理任务的标准方法。

关键概念

单词分词：在预处理过程中将文本拆分为单个单词。
基于字符的分词：将文本分解为单个字符进行分析。
句子分词：将文本划分为句子，确保准确理解。
子词标记：将单词表示为子字符的组合，以捕捉细微差别。
基于规则的分词：根据预定义的规则和模式识别单词或短语。
历史方法：早期方法侧重于字符级分割，不考虑单词边界。
上下文感知：在上下文中识别单词，比历史方法提高了准确性。
子词模型：将单词表示为子字符的组合，以处理推理过程中的未登录词。
效率：分词器在保持准确性的同时，针对速度和内存使用进行了优化。

应用

分词在各种自然语言处理任务中至关重要，包括：

分类：单词级或字符级分类需要分词后的输入才能进行准确建模。
生成：像GPT - 3这样的语言模型通过基于分词器生成单词或字符来生成连贯的文本。
识别关键短语：分词器有助于从文档中提取重要短语或术语，用于搜索引擎或摘要。
翻译：分词器通过将句子拆分为单词，帮助机器翻译确保准确翻译。
命名实体识别：识别人员、地点和组织等命名实体需要精确的分词来捕捉上下文和关系。
文本摘要：单词级或字符级摘要需要高效的分词来浓缩文本而不丢失含义。

挑战

上下文敏感性：分词器必须考虑上下文才能准确识别单词和短语，尤其是在复杂句子中。
标点处理：正确处理标点可能具有挑战性，因为它会影响单词边界和句子结构。
分词可变性：不同的分词器可能由于其方法和局限性而产生略有不同的结果。
语言多样性：分词器必须准确处理多种语言，因为语言模型通常在特定数据集上进行训练。
句子边界检测：识别句子边界可能具有挑战性，特别是在句子结构灵活的语言中。
单词分割：准确分割单词可能很困难，尤其是在嘈杂的文本或形态复杂的语言中。

解决方案

上下文感知分词：将上下文纳入分词算法，通过同时考虑单词和句子边界来提高准确性。
训练数据集：使用多样化的数据集有助于分词器更有效地处理特定语言和方言。
预处理管道：将分词与其他预处理步骤（如词干提取或词形还原）相结合，通过为模型提供一致的输入格式来提高性能。
句子边界检测：利用机器学习技术识别句子边界，提高分词的准确性。
语言模型：将像GPT - 3这样的大型语言模型集成到分词器中，增强上下文感知能力，同时处理未登录词而不牺牲效率。
微调：针对特定数据集或任务定制分词器，通过在特定数据集上进行训练来提高性能。

VB.NET分词器示例

编写VB.NET分词器

任务是创建一个VB.NET分词器，将给定文本分词为指定大小的单词n - 元组。以下是实现代码：

Imports System.Text.RegularExpressions

Public Class Tokenizer
    Private _n As Integer

    Public Sub New(n As Integer)
        _n = n
    End Sub

    Public Function Tokenize(text As String) As List(Of String)
        Dim tokens As New List(Of String)
        Dim words As String() = text.Split({" "}, StringSplitOptions.RemoveEmptyEntries)

        For Each word In words
            If word.Length > 0 Then
                tokens.Add(word)
            End If
        Next

        Return tokens
    End Function
End Class

调用示例：

Dim tokenizer As New Tokenizer()
Dim tokensList = tokenizer.Tokenize("The quick brown fox jumps over the lazy dog")
Console.WriteLine(tokensList)

输出结果：

The quick
quick brown
brown fox
fox jumps
jumps over
over the
the lazy
lazy dog

🔧 技术细节

文档未提供足够详细的技术实现细节，暂不展示。

📄 许可证

文档未提及许可证信息，暂不展示。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库