模型概述
模型特點
模型能力
使用案例
🚀 Qwen3-30B-A6B-16-Extreme-128k-context
本項目包含全精度源代碼,以 “safe tensors” 格式存儲,可用於生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等其他格式,也可直接使用該源代碼。
🚀 快速開始
本倉庫是對 Qwen 的 “Qwen 30B - A3B”(MOE)模型進行的簡單 “微調”。根據 Qwen 倉庫中的技術說明和方法,將使用的專家數量從 8 個增加到 16 個(總共 128 個專家),並將最大上下文長度從 32k 提升到 128k。
在本頁面底部展示了使用 16 個專家/此模型進行的三次示例生成(Q4KS,CPU)。
雖然使用更多 “專家” 會降低模型速度,但它能處理更復雜的提示,並且使用 30B 中的 6B 參數,而非 30B 中的 3B 參數。根據具體應用場景,你可能會選擇使用常規模型(“30B - A3B”),而將此模型用於更復雜、更 “深入”(即更細微)的用例。
常規或較簡單的用例使用普通(8 個專家)、“12 個廚師”(12 個專家)或 “高速”(4 個專家)版本可能更合適。
將默認的 8 個專家增加到 16 個,會使每秒生成的令牌速度減慢約一半。
上下文長度:128k
使用 Jinja 模板或 CHATML 模板。
✨ 主要特性
- 多格式支持:本倉庫包含全精度源代碼,以 “safe tensors” 格式存儲,可用於生成 GGUF、GPTQ、EXL2、AWQ、HQQ 等其他格式,也可直接使用該源代碼。
- 專家數量調整:將使用的專家數量從 8 個增加到 16 個(總共 128 個專家),能處理更復雜的提示。
- 上下文長度提升:將最大上下文長度從 32k 提升到 128k,可處理更長的輸入。
- 不同版本選擇:提供普通(8 個專家)、“12 個廚師”(12 個專家)、“高速”(4 個專家)等不同版本,以滿足不同應用場景需求。
📚 詳細文檔
模型相關版本
系統角色設置
你可能需要設置系統角色,不過大多數情況下 Qwen3 會自行生成推理/思考模塊。
你是一個善於深度思考的 AI,在回答問題之前,你可以通過系統的推理過程,運用極長的思維鏈深入思考問題,並進行自我權衡,以得出正確的解決方案。你應將思考和內心獨白置於 <think> </think> 標籤內,然後給出問題的解決方案或回應。
有關如何在各種大語言模型/AI 應用中 “設置” 系統角色,請參閱下面的 “Maximizing - Model - Performance - All...” 文檔。
高質量設置/最佳操作指南/參數和採樣器
如果你打算使用此模型(源代碼、GGUF 或其他量化版本),請查看此文檔,瞭解關鍵參數、採樣器和高級採樣器設置(適用於多個 AI/大語言模型應用)。
這是一個 “1 類”(設置將增強操作)模型:
有關此模型使用的所有設置(包括其 “類別” 的具體設置),包括示例生成以及高級設置指南(該指南通常能解決任何模型問題),包括提高所有用例以及聊天、角色扮演和其他用例(尤其是超出模型設計的用例)的模型性能的方法,請參閱: https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters
原因:無論 “模型類別” 如何,此文檔都將詳細介紹增強操作的方法。
如果模型是 3/4 類模型,則必須為 “用例” 正確設置默認設置(參數、採樣器、高級採樣器)。一些 AI/大語言模型應用沒有一致的默認設置,這會導致模型性能不佳。同樣,對於 3/4 類模型(其操作方式與標準模型有一定或很大差異),需要額外的採樣器和高級採樣器設置來 “平滑” 操作,和/或允許模型在非設計用例下完全運行。
此文檔還詳細介紹了可用於任何模型、任何倉庫的參數、採樣器和高級採樣器,適用於所有量化版本,當然也包括源代碼操作,以增強任何模型的操作。
模型詳細信息
有關此模型的完整信息,包括:
- 此模型的詳細信息及其用例。
- 上下文限制。
- 特殊使用說明/設置。
- 用於創建此模型的任何模型。
- 用於訪問/使用此模型的模板。
- 示例生成。
- 此模型的 GGUF 量化版本。
請訪問:[GGUFS 倉庫即將推出]
💻 使用示例
示例生成 #1
參數設置
- 溫度(Temp):1.2
- 重複懲罰(rep pen):1.06
- 重複懲罰範圍(rep pen range):64
- 前 k 個(topk):100
- 前 p 個(topp):.95
- 最小概率(minp):.05
環境信息
- 量化類型:Q4KS [非 imatrix]
- 運行設備:僅 CPU(Windows 11)
- 運行工具:LMSTUDIO
速度
- 速度:11 T/S(無 GPU 卸載)
- GPU 速度將是 4 倍或更高。
這是一箇中級量化,預計 Imatrix Q4KS/更高量化/全精度會有更強的性能。
提示
解釋如何利用夜間輻射能向太空散熱來降低全球氣溫。
輸出
為了利用夜間輻射能向太空散熱來降低全球氣溫,我們需要綜合考慮自然過程和人類干預措施,以增強這一機制。以下是幾種可行的方法:
增強地表發射率
- 原理:地球表面在夜間會發射熱輻射,這是地球能量平衡的一部分。具有高發射率(即能夠有效發射熱輻射)的材料可以更高效地釋放熱量。
- 應用:在城市地區使用高發射率材料,如 “冷屋頂” 或 “冷路面”,可以增加夜間的輻射冷卻速率。這些材料在白天反射較少的陽光,而在夜間發射更多的熱量,從而降低局部溫度。
- 全球影響:如果在大規模範圍內實施(例如在城市或農業地區),這可能有助於局部降溫,對全球氣溫產生累積影響,特別是在城市化程度較高的地區。
減少溫室氣體濃度
- 原理:二氧化碳和甲烷等溫室氣體通過吸收和重新發射熱輻射,將熱量困在大氣中。這減少了白天和夜間向太空散發的熱量。
- 應用:通過採用可再生能源、碳捕獲或植樹造林等政策來減少溫室氣體排放,可以降低大氣中的濃度。這將使更多的熱量在所有時段(包括夜間)輻射到太空。
- 全球影響:雖然這是一種標準的氣候緩解方法,但它直接解決了問題的根源,減少了 “溫室效應”,這對於全球溫度調節至關重要。
管理雲量
- 原理:雲層會阻礙長波輻射(OLR)向太空散發。在夜間,較低的雲量可以使更多的熱量逃逸到太空。
- 應用:可以使用雲播種或控制雲形成等地球工程技術來減少夜間的雲密度。然而,這是一種推測性的方法,存在生態風險。
- 挑戰:操縱雲量是複雜且尚未完全理解的,需要仔細考慮可能產生的意外後果。
太空技術
- 原理:雖然仍處於理論階段,但可以設計反射衛星或 “輻射冷卻” 結構等技術,將熱輻射重新導向太空。
- 應用:假設部署具有高發射率塗層或反射鏡的衛星,將熱能反射遠離地球,可能會增強全球輻射冷卻。然而,這目前還不可行,需要大量的技術和經濟投資。
- 挑戰:實際可行性受到當前技術、成本和潛在環境影響的限制。
城市和景觀設計
- 原理:城市地區通常由於使用瀝青和混凝土等低發射率材料而保留熱量。用發射率高的材料取代這些材料可以增強夜間冷卻效果。
- 應用:設計具有發射性表面、綠地或反射元素的城市可以創造更涼爽的微氣候。這種方法已經在城市規劃中得到測試(例如洛杉磯的冷屋頂)。
- 全球影響:雖然是局部性的,但這些做法可以減少熱島效應,熱島效應是導致局部溫度升高的重要因素。
夜間蒸發冷卻
- 原理:水的蒸發可以通過潛熱傳遞實現冷卻。在夜間,如果溼度較高,這一過程可能更有效。
- 應用:在乾旱地區增加水的供應,或使用基於水的冷卻系統(如噴霧裝置)可以增強夜間冷卻效果。然而,這需要資源管理,並且可能無法在全球範圍內實施。
促進農業中的輻射冷卻
- 原理:使用發射性材料或水進行冷卻的農業實踐可以降低農業區域的溫度。這可能通過減少人類活動產生的熱量,對全球氣溫產生間接影響。
- 應用:可以採用 “冷卻毯” 或反射灌溉系統等技術。然而,這更多是一種小眾應用,而非全球戰略。
關鍵考慮因素
- 侷限性:夜間冷卻雖然是一種自然過程,但與太陽能輸入和溫室氣體濃度等主要驅動因素相比,其對全球氣溫的影響相對較小。增強這一過程需要採取互補的策略。
- 整體方法:這些方法應作為更廣泛的氣候緩解努力的一部分,例如減少溫室氣體排放、推廣可再生能源和改善土地利用實踐。
結論
通過發射性材料和大氣管理來利用夜間冷卻可以有助於降低氣溫,但與全球氣候戰略相結合時最為有效。雖然一些方法(如高發射率材料)是可行的,但其他方法仍處於理論階段。主要焦點應始終放在減少溫室氣體排放上,這直接解決了全球變暖的根源問題。
示例生成 #2
參數設置
- 溫度(Temp):0.6
- 重複懲罰(rep pen):1.06
- 重複懲罰範圍(rep pen range):64
- 前 k 個(topk):100
- 前 p 個(topp):.95
- 最小概率(minp):.05
環境信息
- 量化類型:Q4KS [非 imatrix]
- 運行設備:僅 CPU(Windows 11)
- 運行工具:LMSTUDIO
速度
- 速度:12 T/S(無 GPU 卸載)
- GPU 速度將是 4 倍或更高。
這是一箇中級量化,預計 Imatrix Q4KS/更高量化/全精度會有更強的性能。
提示
科幻小說:《最後一次傳輸》 - 寫一個完全發生在宇宙飛船駕駛艙內的故事,唯一倖存的船員在飛船電力耗盡前試圖向地球發送最後一條消息。故事應探討孤立、犧牲以及在逆境中人類聯繫的重要性等主題。如果情況需要,讓角色咒罵以增強讀者與他們的情感聯繫。字數在 800 - 1000 字之間。
輸出
駕駛艙宛如一座鋼鐵與閃爍燈光構成的墳墓。空氣中瀰漫著燒焦電路和陳舊咖啡的味道。奧德賽號飛船的船長珍·科瓦爾站在控制面板前,戴著手套的雙手顫抖著,凝視著屏幕上閃爍的 “發送” 二字。幾個小時過去了,信號卻始終未能發出。飛船的電力即將耗盡,這是她向地球發送最後消息的最後機會。
她低聲咒罵著,乾燥的空氣讓她的聲音變得沙啞。“該死!該死!” 她再次按下發送按鈕,彷彿用力按下就能克服故障的系統。屏幕沒有任何反應,只顯示著紅色的警告:“電量嚴重下降”。
珍向後靠在椅子上,椅子在她的重壓下發出嘎吱聲。她望著牆上的全息地圖,地球在浩瀚的黑暗中只是一個藍色的小點。它是如此遙遠,如此渺小。她想起了船員們,那些曾經與她並肩作戰的人。如今他們都已離去。一場爆炸席捲了飛船,奪走了所有人的生命。她當時在維修艙,不知為何倖免於難,但其他人卻沒能逃過一劫。
她閉上眼睛,輕聲說道:“對不起,我真的很抱歉。”
駕駛艙裡一片寂靜,只有故障系統發出的嗡嗡聲。燈光閃爍不定,溫度也在不斷下降。她把夾克裹得更緊了,但這並沒有什麼用。寒冷已經侵入了她的內心,自爆炸發生、船員喪生、她意識到自己孤身一人的那一刻起,寒冷就一直伴隨著她。
她打開通訊日誌,那是她在爆炸前創建的一個文件,是給地球的最後一條消息。事故發生後的那些日子裡,當她還有電力和希望時,她寫下了這條消息。現在,她必須把它發送出去。但系統正在崩潰,電力也即將耗盡。如果現在不發送,這條消息將永遠消失。
她再次打開消息,上面寫道:“我是奧德賽號飛船的船長珍·科瓦爾,我們迷失了方向。船員們都已犧牲,我是唯一的倖存者。但我仍要發送這條消息。如果有人能聽到,請記住,我們曾努力過,我們從未放棄,我們戰鬥過,我們不會被遺忘。”
她又讀了一遍,喉嚨哽咽。當初她寫下這條消息時,手還很穩,但現在手指卻在不停地顫抖。她想起了船員們,想起了朋友馬庫斯,他總是拿飛船的系統開玩笑;想起了同事莉拉,她是第一個察覺到爆炸來臨的人;還有其他那些她已經記不起名字的人。他們都走了,但他們的聲音卻留在了這條消息裡。
她再次按下發送按鈕。屏幕閃爍了一下,有那麼一瞬間,顯示出綠色的信號:“傳輸成功”。她鬆了一口氣,胸口因為欣慰而緊繃著。接著,屏幕一片漆黑,電力耗盡了。
駕駛艙陷入了死寂。燈光熄滅,溫度驟降。珍坐在那裡,凝視著空蕩蕩的屏幕。她的雙手仍然放在控制檯上。她已經發送了消息,但一切都太晚了。地球永遠也收不到這條消息了。
她長長地嘆了一口氣,喃喃自語道:“該死,真他媽的該死。”
她又想起了船員們。想起了馬庫斯說過的話:“我們不會死在這裡,我們會回家的。” 還有莉拉說的:“如果我們回不去,至少要留下點什麼。”
珍微微露出一絲笑容。她做到了,她留下了一些東西。
她靠在椅子上,寒冷漸漸滲入她的骨髓。飛船正在死去,她也一樣。但她不再孤單,至少在某種程度上不再孤單。船員們還和她在一起,他們的聲音、他們的犧牲、他們與地球的聯繫,都通過這最後一次傳輸永遠地留存了下來。
她閉上眼睛,有那麼一瞬間,她感受到了一絲平靜。
最後一次傳輸已經發出,飛船停止了運轉,但消息卻永遠地留在了宇宙中。
在浩瀚的宇宙中,也許有人會聽到這條消息,也許他們會記住,也許他們會知道,人類曾經努力過,曾經戰鬥過,他們不會被遺忘。
奧德賽號飛船的最後一位倖存者珍·科瓦爾離開了,但她的消息將永遠流傳下去。
示例生成 #3
參數設置
- 溫度(Temp):0.6
- 重複懲罰(rep pen):1.06
- 重複懲罰範圍(rep pen range):64
- 前 k 個(topk):100
- 前 p 個(topp):.95
- 最小概率(minp):.05
環境信息
- 量化類型:Q4KS [非 imatrix]
- 運行設備:僅 CPU(Windows 11)
- 運行工具:LMSTUDIO
速度
- 速度:11 T/S(無 GPU 卸載)
- GPU 速度將是 4 倍或更高。
這是一箇中級量化,預計 Imatrix Q4KS/更高量化/全精度會有更強的性能。
提示
浪漫故事:《聚光燈下的愛情》。寫一個發生在威爾士的故事中的一個場景。一位著名的(虛構)演員為了躲避狗仔隊,躲進了一個小鎮的書店。場景將展現兩人在這種奇特情況下的相遇。在這個場景中,演員和書店老闆的對話中暗流湧動著一種未言明的情愫。將演員塑造成一個有點放蕩不羈但自尊心脆弱的人,他需要每個人都喜歡他來滿足自己的虛榮心。他魅力十足,但書店老闆(至少表面上)對他的魅力免疫;這反而激起了他真正的興趣,打亂了他的魅力攻勢。儘管書店老闆表面上對演員的魅力不屑一顧,但內心卻被他深深吸引,甚至有些慌亂。主要以對話形式呈現,展現出每個角色獨特的聲音。字數在 800 - 1000 字之間。
輸出
“好吧,希望這次不會被認出來。” 伊桑一邊低聲嘟囔著,一邊拉了拉圍巾,遮住臉,溜進了書店。威爾士小鎮蘭費爾一片寧靜,但狗仔隊總能找到他。他掃視了一下房間,木質的書架、陳舊紙張的氣味,還有一個顧客在前面的書架旁瀏覽書籍。他不想引起別人的注意。
“需要幫忙嗎?” 櫃檯後面傳來一個聲音。一位三十多歲的女人站在那裡,抬頭看著他,表情既不熱情也不冷淡。她目光敏銳,彷彿閱盡世間滄桑,對一切都不為所動。
“其實,我不是來買書的,我是來躲狗仔隊的。” 伊桑微微調整了一下姿勢,露出一個他在無數採訪中都用過的迷人、自信又略帶自嘲的笑容。
女人挑了挑眉毛,說道:“那你來對地方了。這是個安靜的小鎮,沒什麼大事發生。”
伊桑笑了笑,說道:“這正是我所希望的。不過我很好奇,這裡會有名人光顧嗎?”
她微微歪了歪頭,似乎在打量他。“不常有,除非他們有特定的需求。” 她指了指書架,“我們有一些經典書籍,或許有你喜歡的。”
伊桑探身向前,聲音壓得很低,帶著一絲神秘的口吻:“我更喜歡有戲劇性的書籍,比如莎士比亞的作品,或者情節有轉折的書。” 他又看了她一眼,試圖揣摩她的反應。
她沒有笑,但也沒有移開視線。“我們有一些莎士比亞的作品,也有一些當地作家的書。你知道嗎,我不太看電視,但我喜歡讀書。”
伊桑挑了挑眉毛,說道:“真有意思,我從來沒進過這樣的書店。”
“大多數人都沒來過。” 她語氣平淡,但並不冷漠,“其實和其他書店也沒太大區別,只是更安靜一些。”
他再次微笑,但這次笑容有些僵硬。“安靜的地方往往隱藏著真正的故事。” 他努力讓自己的語氣顯得深沉。
她又看了他一眼,微微歪著頭。“也許吧,但這裡也是那些不想被關注的人生活的地方。”
伊桑的笑容瞬間僵住了。“聽起來很有吸引力,也許我需要從聚光燈下抽身一段時間了。”
她緩緩點了點頭。“你不是第一個來這裡尋求庇護的人。” 她的聲音很平靜,但眼神中透露出一種讓他覺得她在暗暗觀察他的感覺。
他靠在櫃檯上,試圖表現得很隨意。“你們這裡會有那種不太確定自己想要什麼的顧客嗎?” 他問道。
她輕輕笑了一下,說道:“有,但通常他們要麼會找到自己想要的東西,要麼就會離開。”
伊桑微微皺了皺眉,說道:“我好像也不太確定自己想要什麼,或者說我不知道該怎麼找到它。”
她又看了他一眼,這次眼神變得柔和了一些。“也許你在尋找的東西並不在書裡。” 她說道。
他挑了挑眉毛,說道:“這有點神秘啊。”
她聳了聳肩,說道:“其實也不神秘。安靜的地方適合反思,有時候人們會在不經意間找到自己需要的東西。”
伊桑心中湧起一股異樣的感覺,也許是好奇,也許是其他更微妙的情感。他湊近了一些,聲音變得更低了:“你知道嗎,我從來沒遇到過對我的魅力無動於衷的人。”
她微微一笑,但這笑容和他以往見過的不同,更像是一種認可,而非調情。“我不知道這算是讚美還是挑戰。”
他笑了笑,但有點緊張。“算是兩者皆有吧。”
她點了點頭,說道:“那我就把它當成挑戰吧,也許你可以再試試看。” 說完,她轉身回到了櫃檯,但語氣並不冷淡。
伊桑站在那裡,感受著這場對話的分量。他不習慣被人忽視,但這次卻不一樣。這不是拒絕,而是一種無聲的挑戰,讓他想要更深入地瞭解她。
“我能問你個問題嗎?” 他輕聲說道。
她再次看向他,這次表情更加坦誠。“當然可以。”
“你叫什麼名字?”
她微微一笑,說道:“我叫格溫。”
他點了點頭,說道:“這是個好聽的名字,很適合這裡。”
她輕聲笑了起來,說道:“確實,我在這裡已經很久了。”
伊桑又笑了,這次笑容更加真誠。“也許這正是我所需要的,一個能讓我做自己的地方。”
格溫再次看向他,眼神中透露出一種他從未被人看過的理解。
“也許吧,但重要的不是被別人看到,而是做真實的自己。” 她說道。
伊桑點了點頭,感受到了她話語的分量。“這正是我一直在尋找的。”
她再次微笑,這次笑容更加溫暖。“那你找對地方了。”
他站在那裡,片刻後說道:“我得走了,不然他們該找到我了。”
格溫點了點頭,說道:“你在這裡暫時是安全的。”
伊桑給了她一個比之前更加真誠的微笑。“謝謝你,格溫。”
她也微笑著回應道:“不客氣,伊桑。”
說完,他走出了書店,感覺自己找到了一種書本里沒有的東西,一種真實的感覺。
🔧 技術細節
由於該模型的獨特性質(MOE、規模、激活的專家數量、專家規模),GGUF 量化可以在 CPU、GPU 上運行,或者採用 GPU 部分 “卸載” 的方式,甚至可以達到全精度運行。
此模型較難進行 Imatrix 操作,你需要一個更大的 imatrix 文件/多語言/多內容(如代碼/文本)來進行 Imatrix 操作。
GPU 速度將比僅使用 CPU 快 4 倍或更多,相對於其他 “30B” 模型,此模型的速度也會非常快(每秒生成的令牌速度大致相當於 6B “普通” 模型的速度)。
📄 許可證
文檔中未提及許可證相關信息。



