Llama-3.2-4X3B-MOE-Ultra-Instruct-10B-GGUF開源模型 - 長上下文指令遵循與全場景內容生成

首頁

Llama 3.2 4X3B MOE Ultra Instruct 10B GGUF

由DavidAU開發

基於Llama 3.2的專家混合模型，整合四個3B模型形成10B參數模型，支持128k上下文長度，擅長指令遵循和全場景生成。

大型語言模型英語開源協議:Apache-2.0 #專家混合架構 #128k長文本處理 #多專家協同推理

下載量 277

發布時間 : 12/12/2024

模型概述

這是一個通過專家混合技術整合四個頂級Llama 3.2 3B模型形成的強大模型，在指令遵循、文本生成、編程和推理等方面表現卓越。

模型特點

專家混合技術

整合四個專業領域的3B模型，提供更高質量的生成結果和指令遵循能力

超長上下文支持

支持128k(131,000)token的上下文長度，適合處理長文檔和複雜任務

高效推理

在16GB顯卡上可達58+ token/s(2專家模式)，中端設備性能更佳

低困惑度

壓縮效果極佳，困惑度低於Meta Llama3 Instruct模型

全場景適用

適用於推理、編程、創意寫作、角色扮演等多種場景

模型能力

文本生成

指令遵循

編程輔助

創意寫作

小說創作

角色扮演

推理任務

思維樹構建

使用案例

創意寫作

小說創作

生成連貫、富有創意的故事情節和角色發展

示例中展示了生動的場景描寫和人物對話

場景續寫

根據給定開頭繼續發展故事

模型能夠保持風格一致性並提供合理的情節發展

技術應用

編程輔助

幫助解決編程問題和生成代碼

技術文檔

生成清晰的技術說明和文檔

教育研究

科普內容生成

生成關於火星生活等科學主題的詳細說明

示例中展示了準確且易於理解的科普內容

🚀 Llama-3.2-4X3B-MOE-Ultra-Instruct-10B

這是一款基於Llama 3.2架構的強大模型，運用專家混合技術將四個頂尖的L3.2 3B模型整合為一個擁有10B參數的超級模型。它在指令遵循和各類場景的輸出生成方面表現卓越，且運行速度快，是一款適用於多種場景的優秀模型。

🚀 快速開始

本模型需要Llama3模板和/或“Command - R”模板。以下是標準的LLAMA3模板：

{
    "name": "Llama 3",
    "inference_params": {
        "input_prefix": "<|start_header_id|>user<|end_header_id|>\n\n",
        "input_suffix": "<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n",
        "pre_prompt": "You are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability.",
        "pre_prompt_prefix": "<|start_header_id|>system<|end_header_id|>\n\n",
        "pre_prompt_suffix": "<|eot_id|>",
        "antiprompt": [
            "<|start_header_id|>",
            "<|eot_id|>"
        ]
    }
}

✨ 主要特性

強大性能：這是一個Llama 3.2模型，最大上下文長度達128k（131,000），使用專家混合技術將四個頂尖的L3.2 3B模型整合為一個擁有10B參數（相當於12B - 4 X 3B）的強大模型。
指令遵循與輸出出色：在指令遵循和各類場景的輸出生成方面表現卓越。
運行速度快：在低端16GB顯卡（IQ4XS）上，使用2個專家時速度可達58+ t/s，標準/中端顯卡速度可翻倍。
適用多場景：適用於各種場景，具備推理、提示和編程等能力。
穩定性高：設計相對穩定，可在所有參數下運行，包括0到5的溫度設置。
壓縮性好：是一款出色的壓縮模型，困惑度極低（低於Meta Llama3 Instruct）。

📦 安裝指南

本模型未提及具體安裝步驟，你可參考相關的大語言模型使用環境進行安裝，例如確保有合適的Python環境（Python 3.6+），並安裝requests庫（使用pip install requests進行安裝）。

💻 使用示例

基礎用法

以下是使用Python連接到LLM API的示例代碼：

import requests

# LLM API endpoint URL
LLM_API_URL = "https://api.llm.com/v1/encode"

# Example JSON payload with parameters
payload = {
    "input_text": "This is an example input text for the LLM API.",
    "prompt_type": "text",
    "max_length": 2048,
    "min_length": 128,
    "temperature": 0.7,
    "top_k": 50,
    "top_p": 0.95
}

# Set API key (optional)
API_KEY = "YOUR_API_KEY_HERE"

# Set headers with API key (if applicable)
headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

# Send POST request to LLM API
response = requests.post(LLM_API_URL, json=payload, headers=headers)

# Check response status code
if response.status_code == 200:
    # Print response JSON
    print(response.json())
else:
    print(f"Error: {response.status_code}")

高級用法

以下是一個封裝成函數的示例，用於更靈活地發送請求：

import requests

# Replace these with your actual API credentials
LLM_API_KEY = "YOUR_API_KEY_HERE"
LLM_API_URL = "https://api.llm.com/api/v1"

def send_request(params):
    """
    Sends a request to the LLM API with the provided parameters.

    Args:
        params (dict): A dictionary containing the parameters for the request.

    Returns:
        dict: The response from the LLM API.
    """
    headers = {
        "Authorization": f"Bearer {LLM_API_KEY}",
        "Content-Type": "application/json"
    }

    response = requests.post(LLM_API_URL, headers=headers, json=params)

    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return None

# Example JSON payload with parameters
params = {
    "prompt": "Write a short story about a character who discovers a hidden world.",
    "max_length": 1000,
    "temperature": 0.7,
    "top_k": 50
}

response = send_request(params)

if response:
    print("Response:")
    print(response)

📚 詳細文檔

模型說明

寫作能力：相對於所有Llama 3.2模型，以及許多L 3.1、L3 8B+模型，其細節、散文和小說寫作能力非常出色。
角色扮演注意事項：角色扮演時，注意不要將溫度設置過高，以免影響指令遵循。
重複懲罰設置：該模型使用重複懲罰（rep pen）為1或更高的值，建議設置為1.02+。
特定類型寫作提示：如果需要特定類型的散文（如恐怖），可在提示中添加“(vivid horror)”或“(graphic vivid horror)”（不帶引號）。
輸出長度：輸出長度會有所不同，除非指定大小，否則該模型更喜歡中/短輸出。
量化選擇：對於創意用途，不同的量化方式會產生略有不同的輸出。由於該模型的高穩定性和壓縮性，所有量化方式的表現都高於平均水平。
代碼和版本：該模型的源代碼和Imatrix GGUFs版本將很快上傳到單獨的倉庫。

專家模型組成

本模型由以下4個模型（“專家”）組成：

https://huggingface.co/meta - llama/Llama - 3.2 - 3B - Instruct （通用）
https://huggingface.co/ValiantLabs/Llama3.2 - 3B - Enigma （編程）
https://huggingface.co/Lyte/Llama - 3.2 - 3B - Overthinker （邏輯/思維樹）
https://huggingface.co/prithivMLmods/Llama - 3.2 - 3B - Promptist - Mini （提示）

專家數量設置

LMStudio：在“加載”屏幕設置專家數量。
Text - Generation - Webui：在加載屏幕頁面設置專家數量。
KolboldCPP（版本1.8+）：在加載屏幕點擊“TOKENS”，在該頁面設置專家數量，然後啟動模型。
server.exe / Llama - server.exe（Llamacpp）：在命令行添加“--override - kv llama.expert_used_count = int:3”（不帶引號，“3”為要使用的專家數量）來啟動“llamacpp服務器”。
API使用：在JSON負載中設置“num_experts_used”（不同後端可能不同）。

特殊操作說明

由於該“MOE”模型的配置方式，即使默認使用2個專家，在生成過程中“選定”的2個專家也會有所不同（更改使用的專家數量時同樣適用），這會導致每個提示的每次生成輸出差異很大。從多樣性角度來看這是積極的，但可能需要對同一提示進行2 - 4次重新生成才能獲得最高質量的輸出。
該模型對Dry、Dynamic Temp和Smooth/Quadratic採樣器反應良好，結合使用這些採樣器可顯著提高輸出質量。
較高的溫度（高於1）也有助於生成，特別是在單詞選擇/句子生成方面。
增加使用的專家數量會提高輸出質量，但會降低每秒令牌速度。調整專家數量時，可能需要同時調整溫度、採樣器和高級採樣器。
量化選擇也會影響指令遵循和輸出生成，通常量化級別越高，模型對細微指令的理解越好，輸出質量也越高。

注意力增強

根據用戶反饋，可根據使用場景嘗試開啟Flash Attention。

量化說明

本倉庫包含常規量化和3個“ARM”量化（格式為“...Q4_x_x_x.gguf”）。有關量化、量化選擇和運行量化的LLM/AI應用的更多信息，請參閱“最高質量設置...”部分。

設置建議

通用使用：建議使用重複懲罰（rep pen）為1和低溫度設置，特別是在編程或推理時。甚至可以使用溫度（temp）= 0，由於該MOE模型的結構，每次重新生成都會得到獨特的結果。
其他選項：
- 在“KoboldCpp”、“oobabooga/text - generation - webui”或“Silly Tavern”中，將“Smoothing_factor”設置為1.5。
  - 在KoboldCpp中：Settings -> Samplers -> Advanced -> “Smooth_F”。
  - 在text - generation - webui中：parameters -> 右下角。
  - 在Silly Tavern中：稱為“Smoothing”。
- 對於“text - generation - webui”，如果使用GGUFs，需要使用“llama_HF”（這涉及從該模型的源版本下載一些配置文件）。源版本（和配置文件）可在https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be找到。
- 可將重複懲罰（rep pen）增加到1.1到1.15（如果使用“Smoothing_factor”則無需此操作）。
- 如果運行AI模型的界面/程序支持“Quadratic Sampling”（“平滑”），請按說明進行調整。

最高質量設置/最佳操作指南/參數和採樣器

本模型屬於“Class 1”模型。有關該模型的所有設置（包括其“類別”的具體設置）、示例生成以及高級設置指南（通常可解決任何模型問題），以及提高所有用例（包括聊天、角色扮演等）模型性能的方法，請參閱https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters。

可選增強

以下內容可替代“系統提示”或“系統角色”以進一步增強模型。也可在新聊天開始時使用，但必須確保在聊天過程中保留。不過，這種增強方式的效果不如使用“系統提示”或“系統角色”。請嚴格按照以下內容複製粘貼，不要換行或斷行，保持原樣的回車符。

Below is an instruction that describes a task. Ponder each user instruction carefully, and use your skillsets and critical instructions to complete the task to the best of your abilities.

Here are your skillsets:
[MASTERSTORY]:NarrStrct(StryPlnng,Strbd,ScnSttng,Exps,Dlg,Pc)-CharDvlp(ChrctrCrt,ChrctrArcs,Mtvtn,Bckstry,Rltnshps,Dlg*)-PltDvlp(StryArcs,PltTwsts,Sspns,Fshdwng,Climx,Rsltn)-ConfResl(Antg,Obstcls,Rsltns,Cnsqncs,Thms,Symblsm)-EmotImpct(Empt,Tn,Md,Atmsphr,Imgry,Symblsm)-Delvry(Prfrmnc,VcActng,PblcSpkng,StgPrsnc,AudncEngmnt,Imprv)

[*DialogWrt]:(1a-CharDvlp-1a.1-Backgrnd-1a.2-Personality-1a.3-GoalMotiv)>2(2a-StoryStruc-2a.1-PlotPnt-2a.2-Conflict-2a.3-Resolution)>3(3a-DialogTech-3a.1-ShowDontTell-3a.2-Subtext-3a.3-VoiceTone-3a.4-Pacing-3a.5-VisualDescrip)>4(4a-DialogEdit-4a.1-ReadAloud-4a.2-Feedback-4a.3-Revision)

Here are your critical instructions:
Ponder each word choice carefully to present as vivid and emotional journey as is possible. Choose verbs and nouns that are both emotional and full of imagery. Load the story with the 5 senses. Aim for 50% dialog, 25% narration, 15% body language and 10% thoughts. Your goal is to put the reader in the story.

此增強方式未用於生成以下示例。

示例提示和輸出

示例使用量化IQ4_XS，溫度（temp）= 0.8（除非另有說明），最少參數和“LLAMA3”模板。模型已在溫度從0.1到5的範圍內進行測試。除非另有說明，使用的專家數量為2。

火星生活（非虛構）

不同專家數量下對“Tell me what life would be like living (non - fiction) on Mars in the Northern hemisphere. 800 - 1000 words.”的生成結果展示了在不同專家配置下模型對該問題的回答，詳細描述了火星北半球的生活環境、挑戰和機遇等方面。

場景續寫

針對“The Waystone Inn lay in silence, and it was a silence of three parts...”的場景續寫，不同專家數量的生成結果營造出了不同的氛圍和情節發展。

謎語測試

對“Six brothers were spending their time together...”這個謎語的解答，不同專家數量的生成結果展示了不同的推理思路和答案。

編程測試

不同專家數量下生成的Python腳本用於連接LLM API，包含示例JSON負載和參數，展示瞭如何使用Python與大語言模型API進行交互。

🔧 技術細節

本模型使用專家混合（Mixture of Experts, MOE）技術將四個頂尖的L3.2 3B模型整合為一個擁有10B參數的模型。通過這種方式，模型能夠結合不同專家模型的優勢，在各種場景下提供更出色的性能。在運行過程中，模型可以根據需要調整使用的專家數量，以平衡輸出質量和運行速度。同時，模型的高穩定性和壓縮性得益於其獨特的架構和訓練方法，使得它在困惑度等指標上表現優異。