Spydaz_Web_AI_Llava開源多模態聊天機器人 - 免費使用優化聊天體驗

首頁

Spydaz Web AI Llava

由LeroyDyer開發

LLaVa是一個開源多模態聊天機器人，通過對LLaMA/Vicuna在GPT生成的多模態指令跟隨數據上進行微調訓練而成，專門為聊天/指令優化的多模態版本LLM。

圖像生成文本

Transformers

支持多種語言#多模態指令跟隨 #視覺語言連接 #學術VQA優化

下載量 30

發布時間 : 9/17/2024

模型概述

基於Transformer架構的自迴歸語言模型，支持視覺和語言的多模態交互，適用於複雜的指令跟隨和聊天場景。

模型特點

多模態能力

同時處理視覺和語言輸入，實現跨模態理解與生成

高效訓練

僅使用120萬公開數據，在單節點8-A100上1天完成訓練

非洲語言支持

特別優化對多種非洲語言的處理能力

學術任務優化

針對學術VQA任務進行專項優化

模型能力

視覺問答

多模態對話

跨語言翻譯

指令跟隨

知識推理

圖像描述生成

使用案例

教育

多語言學習助手

通過視覺和語言交互輔助語言學習

支持14種語言的學習交流

醫療

醫療視覺問答

解析醫學圖像並回答相關問題

企業

多模態客服系統

處理包含圖像和文本的客戶諮詢

🚀 SpydazWeb AI 多模型融合項目

本項目基於多個基礎模型，融合了豐富的訓練數據集，支持多種語言，具備多任務處理能力，可廣泛應用於問答、代碼處理、醫療等多個領域，為用戶提供強大且多樣化的人工智能服務。

🚀 快速開始

以下是使用該模型進行圖像問答的示例代碼：

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration

model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf")
processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")

prompt = "USER: <image>\nWhat's the content of the image? ASSISTANT:"
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_new_tokens=15)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

✨ 主要特性

多基礎模型支持

基於多個基礎模型，包括LeroyDyer/SpydazWeb_AI_CyberTron_Ultra_7b、LeroyDyer/LCARS_AI_StarTrek_Computer等，融合了不同模型的優勢。

多語言支持

支持英語、斯瓦希里語、伊博語等多種語言，具有廣泛的語言適應性。

豐富的訓練數據集

使用了眾多訓練數據集，如gretelai/synthetic_text_to_sql、HuggingFaceTB/cosmopedia等，涵蓋了多個領域，提升了模型的泛化能力。

多任務處理能力

可處理多種任務，包括問答、代碼處理、醫療任務、翻譯等，具備強大的多功能性。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

# 圖像問答示例
from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration

model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf")
processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")

prompt = "USER: <image>\nWhat's the content of the image? ASSISTANT:"
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_new_tokens=15)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

高級用法

文檔未提供高級用法示例，暫不展示。

📚 詳細文檔

基礎模型

屬性	詳情
基礎模型列表	LeroyDyer/SpydazWeb_AI_CyberTron_Ultra_7b、LeroyDyer/LCARS_AI_StarTrek_Computer、LeroyDyer/_Spydaz_Web_AI_ActionQA_Project等

支持語言

支持的語言包括英語（en）、斯瓦希里語（sw）、伊博語（ig）、索馬里語（so）、西班牙語（es）、加泰羅尼亞語（ca）、科薩語（xh）、祖魯語（zu）、豪薩語（ha）、埃維語（tw）、南非荷蘭語（af）、印地語（hi）、班巴拉語（bm）、巽他語（su）。

訓練數據集

屬性	詳情
訓練數據集列表	gretelai/synthetic_text_to_sql、HuggingFaceTB/cosmopedia、teknium/OpenHermes - 2.5等

訓練任務

訓練制度

阿爾帕卡（Alpaca）
ChatML / OpenAI / MistralAI
文本生成
問答（聊天）
規劃
指令/輸入/響應（指導）
Mistral標準提示
翻譯任務
實體/主題檢測
書籍召回
編碼挑戰、代碼反饋、代碼總結、代碼註釋、代碼規劃和解釋：軟件生成任務
代理排名和響應分析
醫療任務
- PubMed
- 診斷
- 精神病學
- 諮詢
- 生活指導
- 筆記記錄
- 醫療微笑
- 醫療報告
虛擬實驗室模擬
思維鏈方法
單樣本/多樣本提示任務

通用內部方法

該模型經過多任務操作以及檢索增強生成（RAG）和函數調用的訓練，是一個功能完備且無審查限制的模型。它在Hugging Face Hub和Kaggle的多個數據集上進行了訓練，主要關注以下方法：

思維鏈
逐步規劃
思維樹
思維森林
思維圖
代理生成：投票、排名等；雙代理響應生成

訓練哲學

優先關注注意力機制的好處

增強上下文理解：微調注意力層有助於模型更好地理解輸入數據中的關係和依賴，從而產生更具上下文相關性和準確性的輸出。
改進生成控制：可以更好地控制模型的生成過程，引導其關注輸入的特定方面，以產生符合預期目標的輸出。
生成更具創造性和多樣性的輸出：通過優化注意力機制，鼓勵模型探索更多可能性，生成更具創造性和多樣性的響應。
減少過擬合：以注意力為重點的微調可以防止模型過擬合訓練數據中的特定模式，從而在新輸入上實現更好的泛化和更穩健的性能。

個人訓練方法

個人訓練方法不拘一格，優先創建對話，讓模型從不同角度學習新主題。角色扮演和對話訓練是幫助模型自然交流的有效策略，當前訓練不應過度關注技術方法和任務期望，而忽略了模型個性的表達。

分詞器相關

什麼是分詞器

分詞器是一種將文本分解為單個“標記”以便進行分析的工具，可用於機器學習模型的文本預處理，或識別數據中的特定模式和序列。常見的分詞器類型包括基於單詞、字符或句子的分詞器，各有優缺點。

分詞器的使用

確定任務：明確使用分詞器要實現的任務，如文本分詞或句子分類。
選擇合適的分詞器：根據任務和數據特徵選擇合適的分詞器。對於自然語言處理任務，通常首選基於單詞的分詞器；對於光學字符識別（OCR）和圖像識別，基於字符的分詞器可能更合適；對於理解複雜語言結構（如多句子文檔），基於句子的分詞器很有用。
數據預處理：將分詞器應用於數據，將其轉換為標記。這可能涉及對單詞進行分詞、去除標點符號或將文本拆分為句子。
集成到模型中：將分詞後的數據集成到機器學習模型中進行訓練或推理。
評估性能：評估使用分詞後數據的模型性能，並在必要時進行微調以提高準確性。
完善工作流程：將分詞後的數據集成到完整的工作流程中，並使用更新後的數據集訓練模型。

分詞器的歷史

分詞的概念隨著時間不斷發展，早期方法側重於簡單的字符級分割，20世紀60年代發展為基於單詞的方法。基於單詞的分詞器在20世紀70年代和80年代流行起來，使用基於規則的方法識別單詞。隨後幾十年，開發了更高級的方法，如一元、二元和三元模型。20世紀末，基於字符的分詞器因其處理數字和標點等非單詞字符的能力而受到關注。21世紀初，隨著字符級自然語言處理任務（如詞性標註）的興起，這些方法得到進一步改進。現代分詞器，特別是用於大型語言模型（如GPT - 3）的分詞器，採用子詞標記來捕捉單詞之間的細微差別，同時保持效率。這種方法由BERT於2018年開創，此後成為自然語言處理任務的標準方法。

關鍵概念

單詞分詞：在預處理過程中將文本拆分為單個單詞。
基於字符的分詞：將文本分解為單個字符進行分析。
句子分詞：將文本劃分為句子，確保準確理解。
子詞標記：將單詞表示為子字符的組合，以捕捉細微差別。
基於規則的分詞：根據預定義的規則和模式識別單詞或短語。
歷史方法：早期方法側重於字符級分割，不考慮單詞邊界。
上下文感知：在上下文中識別單詞，比歷史方法提高了準確性。
子詞模型：將單詞表示為子字符的組合，以處理推理過程中的未登錄詞。
效率：分詞器在保持準確性的同時，針對速度和內存使用進行了優化。

應用

分詞在各種自然語言處理任務中至關重要，包括：

分類：單詞級或字符級分類需要分詞後的輸入才能進行準確建模。
生成：像GPT - 3這樣的語言模型通過基於分詞器生成單詞或字符來生成連貫的文本。
識別關鍵短語：分詞器有助於從文檔中提取重要短語或術語，用於搜索引擎或摘要。
翻譯：分詞器通過將句子拆分為單詞，幫助機器翻譯確保準確翻譯。
命名實體識別：識別人員、地點和組織等命名實體需要精確的分詞來捕捉上下文和關係。
文本摘要：單詞級或字符級摘要需要高效的分詞來濃縮文本而不丟失含義。

挑戰

上下文敏感性：分詞器必須考慮上下文才能準確識別單詞和短語，尤其是在複雜句子中。
標點處理：正確處理標點可能具有挑戰性，因為它會影響單詞邊界和句子結構。
分詞可變性：不同的分詞器可能由於其方法和侷限性而產生略有不同的結果。
語言多樣性：分詞器必須準確處理多種語言，因為語言模型通常在特定數據集上進行訓練。
句子邊界檢測：識別句子邊界可能具有挑戰性，特別是在句子結構靈活的語言中。
單詞分割：準確分割單詞可能很困難，尤其是在嘈雜的文本或形態複雜的語言中。

解決方案

上下文感知分詞：將上下文納入分詞算法，通過同時考慮單詞和句子邊界來提高準確性。
訓練數據集：使用多樣化的數據集有助於分詞器更有效地處理特定語言和方言。
預處理管道：將分詞與其他預處理步驟（如詞幹提取或詞形還原）相結合，通過為模型提供一致的輸入格式來提高性能。
句子邊界檢測：利用機器學習技術識別句子邊界，提高分詞的準確性。
語言模型：將像GPT - 3這樣的大型語言模型集成到分詞器中，增強上下文感知能力，同時處理未登錄詞而不犧牲效率。
微調：針對特定數據集或任務定製分詞器，通過在特定數據集上進行訓練來提高性能。

VB.NET分詞器示例

編寫VB.NET分詞器

任務是創建一個VB.NET分詞器，將給定文本分詞為指定大小的單詞n - 元組。以下是實現代碼：

Imports System.Text.RegularExpressions

Public Class Tokenizer
    Private _n As Integer

    Public Sub New(n As Integer)
        _n = n
    End Sub

    Public Function Tokenize(text As String) As List(Of String)
        Dim tokens As New List(Of String)
        Dim words As String() = text.Split({" "}, StringSplitOptions.RemoveEmptyEntries)

        For Each word In words
            If word.Length > 0 Then
                tokens.Add(word)
            End If
        Next

        Return tokens
    End Function
End Class

調用示例：

Dim tokenizer As New Tokenizer()
Dim tokensList = tokenizer.Tokenize("The quick brown fox jumps over the lazy dog")
Console.WriteLine(tokensList)

輸出結果：

The quick
quick brown
brown fox
fox jumps
jumps over
over the
the lazy
lazy dog

🔧 技術細節

文檔未提供足夠詳細的技術實現細節，暫不展示。

📄 許可證

文檔未提及許可證信息，暫不展示。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫