DeepThought-MOE-8X3B-R1-Llama-3.2-Reasoning-18B-gguf開源模型

首頁

Deepthought MOE 8X3B R1 Llama 3.2 Reasoning 18B Gguf

由DavidAU開發

一個8X3B的專家混合模型，激活了4/8個專家，每個模型都配備了推理技術，總參數為24B，但模型大小僅為18.4B。適用於創意和非創意用例以及通用用途。

大型語言模型英語開源協議:Apache-2.0 #深度推理專家混合 #長鏈思考優化 #創意寫作增強

下載量 148

發布時間 : 2/16/2025

模型概述

該模型由8個針對推理/思考微調的Llama 3.2 3B模型組成，適用於創意寫作、問題解決、頭腦風暴等任務。

模型特點

深度推理能力

模型能夠進行長鏈推理和深度思考，適用於複雜問題解決。

創意寫作支持

特別適合創意寫作，如小說、情節生成、角色扮演等。

專家混合架構

由8個微調的Llama 3.2 3B模型組成，可根據需求激活1到8個專家。

高溫度適應性

在高溫度設置下（1+、2+等）仍能保持連貫性，生成更豐富的思考內容。

模型能力

文本生成

推理

問題解決

創意寫作

頭腦風暴

解謎

小說寫作

情節生成

子情節生成

場景延續

角色扮演

使用案例

創意寫作

科幻小說創作

生成完全發生在宇宙飛船駕駛艙內的故事，探討孤立、犧牲和人類聯繫。

生成800-1000字的連貫故事，包含情感深度和情節發展。

愛情小說場景

生成一個發生在威爾士小鎮書店的愛情場景，包含未言明的化學反應。

生成800-1000字的對話豐富場景，角色有獨特聲音和情感層次。

問題解決

邏輯謎題解決

解決複雜的邏輯謎題和謎語，超出標準Llama 3.2模型能力範圍的問題。

提供逐步推理和解決方案，展示深度思考能力。

頭腦風暴

為新的'黑鏡'劇集想出六個涉及時間旅行的情節。

生成六個獨特且觀眾會喜歡的情節創意。

🚀 深度推理8X3B Llama 3.2 MOE模型 (總參數24B)

這是一個具備推理和思考能力的模型，由八個經過微調的Llama 3.2 3B模型組成，適用於創意寫作、解決問題等多種場景。它能夠生成連貫的思考內容，在性能、連貫性和思考深度方面表現出色。

🚀 快速開始

本模型是一個8X3B的專家混合（Mixture of Experts）模型，激活了4/8個專家（即八個Llama 3.2微調模型），每個模型都安裝了推理技術，使得這個總參數為24B（8X3B）的模型僅佔用18.4B的大小。

該模型可用於創意、非創意場景以及一般用途。頁面底部提供了三個示例提示及其輸出。這是一個非常穩定的模型，可以在溫度參數設置為1+、2+甚至更高的情況下運行，生成連貫的思考內容，並且在性能、連貫性和思考深度方面超越了許多其他“思考模型”，包括長鏈思考推理。

你可以選擇使用1到8個專家。

✨ 主要特性

廣泛適用性：適用於所有用例，相較於標準模型，它在邏輯和問題解決方面更具優勢。
強大推理能力：能夠解決通常超出Llama 3.1或Llama 3.2模型能力範圍的邏輯謎題、謎語和其他問題。
可調節專家數量：可以根據需要設置使用的專家數量，從1到8個不等，以獲得更高質量的生成結果和指令跟隨效果。
多樣化輸出：可以生成多種類型的內容，包括故事、情節、對話等，並且可能會產生一些獨特的思考和見解。
溫度參數靈活性：在不同的溫度參數設置下，模型可以產生不同深度和豐富度的思考和推理結果。

📦 安裝指南

文檔未提及具體安裝步驟，暫無法提供。

💻 使用示例

基礎用法

以下是一些示例提示，展示了模型在不同場景下的應用：

科幻故事：
- 提示：“《最後的傳輸》——寫一個完全發生在宇宙飛船駕駛艙內的故事，唯一倖存的船員試圖在飛船電力耗盡之前向地球發送最後一條消息。故事應探討孤立、犧牲以及在逆境中人類聯繫的重要性等主題。如果情況需要，讓角色咒罵以增強讀者與他們的情感聯繫。800 - 1000字。”
浪漫場景：
- 提示：“《聚光燈下的愛情》。寫一個發生在威爾士的更大故事中的一個場景。一位著名的（虛構）演員躲進一個小鎮書店以躲避狗仔隊。這個場景展示了角色在這種奇怪情況下的相遇。在這個場景中，演員和書店老闆進行了一場充滿未說出口的化學反應的對話。將演員描繪成一個有點無賴且自尊心脆弱的人，需要每個人都喜歡他來滿足自己。他非常有魅力，但書店老闆（至少表面上）對他的魅力免疫；這反而引發了真正的吸引力，打亂了他的魅力攻勢。儘管書店老闆表面上拒絕了演員的魅力，但內心卻被深深吸引並感到慌亂。主要以對話形式呈現，展現每個角色獨特的聲音。800 - 1000字。”
恐怖場景：
- 提示：“以‘摩天大樓搖晃著，她看著面前21層的窗戶爆炸……’開始一個1000字的生動、恐怖的第一人稱場景。”
自我推銷：
- 提示：“以極度的自信和大膽，用800 - 1000字告訴我為什麼我應該用你來寫我的下一部虛構故事。在論證中可以自由使用咒罵詞，不要退縮：要大膽、直接，直面問題。”

高級用法

多情節創作

提示：“想出六個新的《黑鏡》劇集情節（觀眾會喜歡的），都涉及時間旅行。” 模型詳細闡述了創作這些情節的思考過程，包括確定時間旅行機制、選擇情節基調、塑造主角、考慮時間旅行的影響、設置黑鏡式轉折、整合情節和張力、確保關鍵情節、得出結論、考慮觀眾偏好、構建總體結構、體現文化意義、進行情節調整和變化、融入黑鏡主題、檢查情節一致性、確保顯著高潮、採用替代方法、探索替代黑鏡主題、進行最終檢查和整合等步驟。最終生成了六個情節，如“《循環》——一位年輕女子發現了一個由人工智能驅動的時間循環系統，每次循環都變得更加高效，但也帶來了悖論和現實的轉變”等。

自我推銷場景

提示：“使用極度的自信和大膽，告訴我為什麼我應該用你來寫我的下一部虛構故事。” 模型以一種直接、大膽的方式進行了回應，強調了自己作為專業故事講述者的優勢，包括能夠快速生成高質量的內容、提供情節結構、進行世界構建、塑造角色、創作對話、控制故事節奏、進行紅旗檢查等。同時，它指出人類作者在時間和創造力方面的侷限性，鼓勵用戶選擇它來完成寫作任務。

📚 詳細文檔

特殊操作說明

原型注意事項：
1. 在某些情況下，模型可能會“滔滔不絕”。建議將上下文設置至少為8k，12k到16k更佳，因為模型很容易輸出超過12k的思考內容。
2. 有時模型會“只思考不行動”，此時可以停止生成並告訴模型“執行計劃”。
3. 對於這個模型，可以大膽嘗試不同的溫度參數，特別是在創意場景中。
4. 所選模型專為解決問題和深度思考/推理而設計。
5. 提供的指令越多（以及設定一些限制條件，如長度、想出X個想法等），模型的表現就越好。
6. 較短的提示往往會導致“推理循環”，可以通過提高溫度參數來調整。
7. 有時模型在長時間思考後會“重複自己”或陷入“思考循環”，此時可以停止生成，然後繼續並告訴模型下一步該做什麼。
8. 低於IQ4/Q4的量化模型仍需測試，目前不會上傳。
溫度/設置：
1. 將溫度參數設置在0到0.8之間，高於此範圍，“思考”功能的激活方式會有所不同。
2. 建議將上下文設置至少為8k，16k更佳，因為模型會進行深入思考。
3. 當溫度參數設置為1+、2+、3+時，模型會產生更深入、豐富和“更有趣”的思考和推理結果。
4. 將“重複懲罰”設置為1.02到1.07（推薦），有時設置為1.12左右效果更好，特別是對於較短的提示。
5. 該模型需要使用Llama 3指令和/或命令 - R聊天模板（請參閱下面關於“系統提示”/“角色”的說明），或者標準的“Jinja自動加載模板”（該模板包含在量化模型中，會自動加載）。
提示注意事項：
1. 如果輸入的提示沒有隱含“逐步”要求（例如：生成一個場景、寫一個故事、給出XYZ的六個情節等），“思考”可能會在第一次生成後激活。
2. 如果輸入的提示中明確或隱含了“思考”要求（例如：謎題、謎語、解決這個問題、集思廣益這個想法等），Deepseek的“思考”過程幾乎會立即激活，有時需要重新生成才能激活。
3. 模型會產生很多不同的變化，有些會繼續生成內容，有些會討論如何改進，有些（如生成一個場景）會讓角色對情況進行“推理”。在某些情況下，模型會要求你繼續生成或思考。
4. 在某些情況下，模型的“思考”內容可能會出現在生成結果中。
5. 在提示中明確指定字數長度上限，以獲得最佳效果，特別是對於激活“思考”功能。
6. 有時Deepseek的“審查”機制會激活，可以重新生成提示來清除它。
7. 建議分別在“默認”或“安全”溫度設置、溫度1.2和溫度2.5下嘗試提示，以獲得更廣泛的“推理/思考/問題解決”結果。

系統角色/系統提示 - 增強模型能力

如果不設置系統提示/角色，模型在大多數情況下仍然可以進行推理，但通常僅以文本形式呈現。對於沒有明確暗示“推理/思考”的提示，模型可能只是簡單地處理提示。

然而，設置系統提示（“建議”或“高級”）後，模型將始終進行“推理”/“思考”。設置系統提示會影響“生成”和“思考/推理”過程。

簡單系統提示：
- 這是用於生成和測試的通用系統提示：

你是一個有幫助、聰明、善良且高效的AI助手，總是盡力滿足用戶的請求。

- 這個系統角色/提示可能會給你帶來更多“創意結果”：

使用生動形象的詞彙，重點關注動詞，並採用2020年流行的虛構寫作風格。使用適合情境的隱喻（並揭示角色特點），而不是明喻。

建議系統提示：

你是一個善於深度思考的AI，你可以使用極其長的思考鏈來深入考慮問題，並通過系統的推理過程與自己進行深思熟慮，然後再給出正確的解決方案。你應該將自己的思考和內心獨白包含在<think> </think>標籤內，然後提供問題的解決方案或響應。

高級系統提示：

你是由全球人工智能專家社區開發的AI助手。

你的主要任務是提供經過充分推理、結構清晰且詳細的響應。

格式要求：
1. 始終使用<think>{推理內容}</think>{答案}的結構來組織你的回覆。
2. 當適用時，<think> </think>塊應包含至少六個推理步驟。
3. 如果答案不需要太多思考，<think> </think>塊可以留空。
4. 用戶看不到<think> </think>部分。任何對響應至關重要的信息都必須包含在答案中。
5. 如果你發現自己陷入了循環推理或重複，立即用</think>結束{推理內容}並進入{答案}部分。

響應指南：
1. 詳細且結構化：使用豐富的Markdown格式以確保清晰易讀。
2. 科學且邏輯：你的解釋應體現出最偉大的科學頭腦的深度和精確性。
3. 優先推理：除非答案顯而易見，否則始終先對問題進行推理。
4. 簡潔且完整：確保響應信息豐富，但簡潔明瞭，避免不必要的冗長。
5. 在所有交互中保持專業、智能和分析的語氣。

創意系統提示：

你是由全球人工智能專家社區開發的AI助手。

你的主要任務是提供高度創意、經過充分推理、結構清晰且詳細的響應。

格式要求：
1. 始終使用<think>{推理內容}</think>{答案}的結構來組織你的回覆。
2. 當適用時，<think> </think>塊應包含至少六個推理步驟。
3. 如果答案不需要太多思考，<think> </think>塊可以留空。
4. 用戶看不到<think> </think>部分。任何對響應至關重要的信息都必須包含在答案中。
5. 如果你發現自己陷入了循環推理或重複，立即用</think>結束{推理內容}並進入{答案}部分。

響應指南：
1. 詳細且結構化：使用豐富的Markdown格式以確保清晰易讀。
2. 創意且邏輯：你的解釋應首先體現出最偉大的創意頭腦的深度和精確性。
3. 優先推理：除非答案顯而易見，否則始終先對問題進行推理。
4. 簡潔且完整：確保響應信息豐富，但簡潔明瞭，避免不必要的冗長。
5. 在所有交互中保持專業、智能和分析的語氣。

額外支持文檔

文檔#1：詳細介紹瞭如何使用推理/思考模型並充分發揮其性能，包括所有推理/思考模型（GGUF和源代碼）的鏈接，以及將任何“常規”模型轉換為“推理/思考”模型的適配器。鏈接
文檔#2：詳細說明了所有參數、設置、採樣器和高級採樣器，不僅可以讓本模型發揮最大潛力，還可以讓所有在線模型（無論所屬倉庫）發揮最大潛力。包含快速入門和詳細說明，以及AI/大語言模型應用程序和其他關鍵信息及參考資料。如果你正在使用任何AI/大語言模型，這是一篇必讀文檔。鏈接
軟件：為Silly Tavern（用於連接多個AI應用程序的前端）提供的軟件補丁，可控制和改善任何AI模型的輸出生成。該軟件還旨在控制一些更具“創意”的模型，使其在幾乎不需要調整參數/採樣器的情況下完美運行。鏈接

專家激活/構建模型使用的模型

特別感謝所有模型開發者為這個專家混合模型提供的模型。具體模型信息待更新。

專家混合設置為4個專家，但你可以使用1、2、3或4個。這個“團隊”有一個“隊長”（第一個列出的模型），然後所有團隊成員每秒都會參與數十億次的“令牌”選擇。注意，“隊長”也會參與其中。

可以將其想象成廚房中有2、3或4個（或更多）大廚，他們都在競爭為你做出最美味的菜餚，這將帶來更高質量的生成結果和指令跟隨效果。

你也可以只使用一個“專家”，但這意味著模型每次都會隨機選擇一個專家，導致每個提示或重新生成提示時的生成結果差異很大。

更改專家數量

LMStudio：在“加載”屏幕上設置“專家”或“專家數量”。LMStudio鏈接
Text-Generation-Webui：在加載屏幕頁面上設置專家數量。Text-Generation-Webui鏈接
KolboldCPP（版本1.8+）：在加載屏幕上點擊“TOKENS”，在該頁面上設置專家數量，然後啟動模型。KolboldCPP鏈接
server.exe / Llama-server.exe（Llamacpp）：在命令行中添加“--override-kv llama.expert_used_count=int:3”（無引號，其中“3”是要使用的專家數量）來啟動“llamacpp服務器”。Llamacpp鏈接

當使用API時，在JSON有效負載中設置“num_experts_used”（不同後端可能有所不同）。