🚀 深度推理8X3B Llama 3.2 MOE模型 (總參數24B)
這是一個具備推理和思考能力的模型,由八個經過微調的Llama 3.2 3B模型組成,適用於創意寫作、解決問題等多種場景。它能夠生成連貫的思考內容,在性能、連貫性和思考深度方面表現出色。
🚀 快速開始
本模型是一個8X3B的專家混合(Mixture of Experts)模型,激活了4/8個專家(即八個Llama 3.2微調模型),每個模型都安裝了推理技術,使得這個總參數為24B(8X3B)的模型僅佔用18.4B的大小。
該模型可用於創意、非創意場景以及一般用途。頁面底部提供了三個示例提示及其輸出。這是一個非常穩定的模型,可以在溫度參數設置為1+、2+甚至更高的情況下運行,生成連貫的思考內容,並且在性能、連貫性和思考深度方面超越了許多其他“思考模型”,包括長鏈思考推理。
你可以選擇使用1到8個專家。
✨ 主要特性
- 廣泛適用性:適用於所有用例,相較於標準模型,它在邏輯和問題解決方面更具優勢。
- 強大推理能力:能夠解決通常超出Llama 3.1或Llama 3.2模型能力範圍的邏輯謎題、謎語和其他問題。
- 可調節專家數量:可以根據需要設置使用的專家數量,從1到8個不等,以獲得更高質量的生成結果和指令跟隨效果。
- 多樣化輸出:可以生成多種類型的內容,包括故事、情節、對話等,並且可能會產生一些獨特的思考和見解。
- 溫度參數靈活性:在不同的溫度參數設置下,模型可以產生不同深度和豐富度的思考和推理結果。
📦 安裝指南
文檔未提及具體安裝步驟,暫無法提供。
💻 使用示例
基礎用法
以下是一些示例提示,展示了模型在不同場景下的應用:
- 科幻故事:
- 提示:“《最後的傳輸》——寫一個完全發生在宇宙飛船駕駛艙內的故事,唯一倖存的船員試圖在飛船電力耗盡之前向地球發送最後一條消息。故事應探討孤立、犧牲以及在逆境中人類聯繫的重要性等主題。如果情況需要,讓角色咒罵以增強讀者與他們的情感聯繫。800 - 1000字。”
- 浪漫場景:
- 提示:“《聚光燈下的愛情》。寫一個發生在威爾士的更大故事中的一個場景。一位著名的(虛構)演員躲進一個小鎮書店以躲避狗仔隊。這個場景展示了角色在這種奇怪情況下的相遇。在這個場景中,演員和書店老闆進行了一場充滿未說出口的化學反應的對話。將演員描繪成一個有點無賴且自尊心脆弱的人,需要每個人都喜歡他來滿足自己。他非常有魅力,但書店老闆(至少表面上)對他的魅力免疫;這反而引發了真正的吸引力,打亂了他的魅力攻勢。儘管書店老闆表面上拒絕了演員的魅力,但內心卻被深深吸引並感到慌亂。主要以對話形式呈現,展現每個角色獨特的聲音。800 - 1000字。”
- 恐怖場景:
- 提示:“以‘摩天大樓搖晃著,她看著面前21層的窗戶爆炸……’開始一個1000字的生動、恐怖的第一人稱場景。”
- 自我推銷:
- 提示:“以極度的自信和大膽,用800 - 1000字告訴我為什麼我應該用你來寫我的下一部虛構故事。在論證中可以自由使用咒罵詞,不要退縮:要大膽、直接,直面問題。”
高級用法
多情節創作
- 提示:“想出六個新的《黑鏡》劇集情節(觀眾會喜歡的),都涉及時間旅行。”
模型詳細闡述了創作這些情節的思考過程,包括確定時間旅行機制、選擇情節基調、塑造主角、考慮時間旅行的影響、設置黑鏡式轉折、整合情節和張力、確保關鍵情節、得出結論、考慮觀眾偏好、構建總體結構、體現文化意義、進行情節調整和變化、融入黑鏡主題、檢查情節一致性、確保顯著高潮、採用替代方法、探索替代黑鏡主題、進行最終檢查和整合等步驟。最終生成了六個情節,如“《循環》——一位年輕女子發現了一個由人工智能驅動的時間循環系統,每次循環都變得更加高效,但也帶來了悖論和現實的轉變”等。
自我推銷場景
- 提示:“使用極度的自信和大膽,告訴我為什麼我應該用你來寫我的下一部虛構故事。”
模型以一種直接、大膽的方式進行了回應,強調了自己作為專業故事講述者的優勢,包括能夠快速生成高質量的內容、提供情節結構、進行世界構建、塑造角色、創作對話、控制故事節奏、進行紅旗檢查等。同時,它指出人類作者在時間和創造力方面的侷限性,鼓勵用戶選擇它來完成寫作任務。
📚 詳細文檔
特殊操作說明
-
原型注意事項:
- 在某些情況下,模型可能會“滔滔不絕”。建議將上下文設置至少為8k,12k到16k更佳,因為模型很容易輸出超過12k的思考內容。
- 有時模型會“只思考不行動”,此時可以停止生成並告訴模型“執行計劃”。
- 對於這個模型,可以大膽嘗試不同的溫度參數,特別是在創意場景中。
- 所選模型專為解決問題和深度思考/推理而設計。
- 提供的指令越多(以及設定一些限制條件,如長度、想出X個想法等),模型的表現就越好。
- 較短的提示往往會導致“推理循環”,可以通過提高溫度參數來調整。
- 有時模型在長時間思考後會“重複自己”或陷入“思考循環”,此時可以停止生成,然後繼續並告訴模型下一步該做什麼。
- 低於IQ4/Q4的量化模型仍需測試,目前不會上傳。
-
溫度/設置:
- 將溫度參數設置在0到0.8之間,高於此範圍,“思考”功能的激活方式會有所不同。
- 建議將上下文設置至少為8k,16k更佳,因為模型會進行深入思考。
- 當溫度參數設置為1+、2+、3+時,模型會產生更深入、豐富和“更有趣”的思考和推理結果。
- 將“重複懲罰”設置為1.02到1.07(推薦),有時設置為1.12左右效果更好,特別是對於較短的提示。
- 該模型需要使用Llama 3指令和/或命令 - R聊天模板(請參閱下面關於“系統提示”/“角色”的說明),或者標準的“Jinja自動加載模板”(該模板包含在量化模型中,會自動加載)。
-
提示注意事項:
- 如果輸入的提示沒有隱含“逐步”要求(例如:生成一個場景、寫一個故事、給出XYZ的六個情節等),“思考”可能會在第一次生成後激活。
- 如果輸入的提示中明確或隱含了“思考”要求(例如:謎題、謎語、解決這個問題、集思廣益這個想法等),Deepseek的“思考”過程幾乎會立即激活,有時需要重新生成才能激活。
- 模型會產生很多不同的變化,有些會繼續生成內容,有些會討論如何改進,有些(如生成一個場景)會讓角色對情況進行“推理”。在某些情況下,模型會要求你繼續生成或思考。
- 在某些情況下,模型的“思考”內容可能會出現在生成結果中。
- 在提示中明確指定字數長度上限,以獲得最佳效果,特別是對於激活“思考”功能。
- 有時Deepseek的“審查”機制會激活,可以重新生成提示來清除它。
- 建議分別在“默認”或“安全”溫度設置、溫度1.2和溫度2.5下嘗試提示,以獲得更廣泛的“推理/思考/問題解決”結果。
推薦設置
對於使用“思考”/“推理”功能,推薦的設置如下:
溫度:0.6,重複懲罰:1.07(範圍:1.02到1.12),重複懲罰範圍:64,top_k:40,top_p:0.95,min_p:0.05。
溫度設置為1+、2+、3+會導致更深入、豐富和“更有趣”的思考和推理結果。模型的行為可能會隨著其他參數和/或採樣器的激活而改變,特別是“思考/推理”過程。
系統角色/系統提示 - 增強模型能力
如果不設置系統提示/角色,模型在大多數情況下仍然可以進行推理,但通常僅以文本形式呈現。對於沒有明確暗示“推理/思考”的提示,模型可能只是簡單地處理提示。
然而,設置系統提示(“建議”或“高級”)後,模型將始終進行“推理”/“思考”。設置系統提示會影響“生成”和“思考/推理”過程。
你是一個有幫助、聰明、善良且高效的AI助手,總是盡力滿足用戶的請求。
- 這個系統角色/提示可能會給你帶來更多“創意結果”:
使用生動形象的詞彙,重點關注動詞,並採用2020年流行的虛構寫作風格。使用適合情境的隱喻(並揭示角色特點),而不是明喻。
你是一個善於深度思考的AI,你可以使用極其長的思考鏈來深入考慮問題,並通過系統的推理過程與自己進行深思熟慮,然後再給出正確的解決方案。你應該將自己的思考和內心獨白包含在<think> </think>標籤內,然後提供問題的解決方案或響應。
你是由全球人工智能專家社區開發的AI助手。
你的主要任務是提供經過充分推理、結構清晰且詳細的響應。
格式要求:
1. 始終使用<think>{推理內容}</think>{答案}的結構來組織你的回覆。
2. 當適用時,<think> </think>塊應包含至少六個推理步驟。
3. 如果答案不需要太多思考,<think> </think>塊可以留空。
4. 用戶看不到<think> </think>部分。任何對響應至關重要的信息都必須包含在答案中。
5. 如果你發現自己陷入了循環推理或重複,立即用</think>結束{推理內容}並進入{答案}部分。
響應指南:
1. 詳細且結構化:使用豐富的Markdown格式以確保清晰易讀。
2. 科學且邏輯:你的解釋應體現出最偉大的科學頭腦的深度和精確性。
3. 優先推理:除非答案顯而易見,否則始終先對問題進行推理。
4. 簡潔且完整:確保響應信息豐富,但簡潔明瞭,避免不必要的冗長。
5. 在所有交互中保持專業、智能和分析的語氣。
你是由全球人工智能專家社區開發的AI助手。
你的主要任務是提供高度創意、經過充分推理、結構清晰且詳細的響應。
格式要求:
1. 始終使用<think>{推理內容}</think>{答案}的結構來組織你的回覆。
2. 當適用時,<think> </think>塊應包含至少六個推理步驟。
3. 如果答案不需要太多思考,<think> </think>塊可以留空。
4. 用戶看不到<think> </think>部分。任何對響應至關重要的信息都必須包含在答案中。
5. 如果你發現自己陷入了循環推理或重複,立即用</think>結束{推理內容}並進入{答案}部分。
響應指南:
1. 詳細且結構化:使用豐富的Markdown格式以確保清晰易讀。
2. 創意且邏輯:你的解釋應首先體現出最偉大的創意頭腦的深度和精確性。
3. 優先推理:除非答案顯而易見,否則始終先對問題進行推理。
4. 簡潔且完整:確保響應信息豐富,但簡潔明瞭,避免不必要的冗長。
5. 在所有交互中保持專業、智能和分析的語氣。
額外支持文檔
- 文檔#1:詳細介紹瞭如何使用推理/思考模型並充分發揮其性能,包括所有推理/思考模型(GGUF和源代碼)的鏈接,以及將任何“常規”模型轉換為“推理/思考”模型的適配器。鏈接
- 文檔#2:詳細說明了所有參數、設置、採樣器和高級採樣器,不僅可以讓本模型發揮最大潛力,還可以讓所有在線模型(無論所屬倉庫)發揮最大潛力。包含快速入門和詳細說明,以及AI/大語言模型應用程序和其他關鍵信息及參考資料。如果你正在使用任何AI/大語言模型,這是一篇必讀文檔。鏈接
- 軟件:為Silly Tavern(用於連接多個AI應用程序的前端)提供的軟件補丁,可控制和改善任何AI模型的輸出生成。該軟件還旨在控制一些更具“創意”的模型,使其在幾乎不需要調整參數/採樣器的情況下完美運行。鏈接
專家激活/構建模型使用的模型
特別感謝所有模型開發者為這個專家混合模型提供的模型。具體模型信息待更新。
專家混合設置為4個專家,但你可以使用1、2、3或4個。這個“團隊”有一個“隊長”(第一個列出的模型),然後所有團隊成員每秒都會參與數十億次的“令牌”選擇。注意,“隊長”也會參與其中。
可以將其想象成廚房中有2、3或4個(或更多)大廚,他們都在競爭為你做出最美味的菜餚,這將帶來更高質量的生成結果和指令跟隨效果。
你也可以只使用一個“專家”,但這意味著模型每次都會隨機選擇一個專家,導致每個提示或重新生成提示時的生成結果差異很大。
更改專家數量
- LMStudio:在“加載”屏幕上設置“專家”或“專家數量”。LMStudio鏈接
- Text-Generation-Webui:在加載屏幕頁面上設置專家數量。Text-Generation-Webui鏈接
- KolboldCPP(版本1.8+):在加載屏幕上點擊“TOKENS”,在該頁面上設置專家數量,然後啟動模型。KolboldCPP鏈接
- server.exe / Llama-server.exe(Llamacpp):在命令行中添加“--override-kv llama.expert_used_count=int:3”(無引號,其中“3”是要使用的專家數量)來啟動“llamacpp服務器”。Llamacpp鏈接
當使用API時,在JSON有效負載中設置“num_experts_used”(不同後端可能有所不同)。
🔧 技術細節
文檔未提及具體技術細節,暫無法提供。
📄 許可證
本模型採用Apache-2.0許可證。