🚀 Phi-3-medium-4k-instruct-abliterated-v3
Phi-3-medium-4k-instruct-abliterated-v3 是基於特定方法對原始模型權重進行處理後的模型,通過正交化操作抑制了模型表達拒絕的能力,在其他方面與原始模型保持一致。本模型在文本生成等自然語言處理任務中具有一定的應用價值,且有望通過進一步探索挖掘更多潛力。
🚀 快速開始
你可以通過以下鏈接查看用於復現此方法的 Jupyter “食譜”,優化後的庫即將推出:
My Jupyter "cookbook" to replicate the methodology can be found here, refined library coming soon
✨ 主要特性
Phi-3-abliterated 聲明
構建這個模型花了我不少時間。距離我上次發佈 Phi-3 模型已經過去一段時間了。過去,我在模型發佈過程中不小心遺漏了一項必要環節——幻覺測試。
這個模型已經過測試,根據我的經驗,雖然它比原始模型更有可能產生幻覺,但總體上和原始模型一樣穩定。
現在新的 Phi-3 模型已經發布,我正在儘快完成這個消融過程,然後會盡快發佈其他模型。 🏇
模型概述
本模型是 microsoft/Phi-3-medium-4k-instruct 的正交化 bfloat16 safetensor 權重版本,採用了基於預覽論文/博客文章中描述的改進方法生成:'Refusal in LLMs is mediated by a single direction' ,建議你閱讀該文章以瞭解更多。
“abliterated”、正交化和消融的含義
- 簡要解釋:這個模型對某些權重進行了處理,以“抑制”模型表達拒絕的能力。但這並不能保證它不會拒絕你、理解你的請求,它仍可能就倫理/安全等問題對你進行說教。除了將最強的拒絕方向正交化去除之外,它在其他方面的調整與原始的 70B 指令模型相同。
- 簡單來說:這是我所能實現的最純粹的無審查版本——在其他方面與原始模型沒有新的或改變的行為。
- “abliterated” 的由來:這是我用原論文中用於指代去除特徵的 “ablation” 一詞創造的一個有趣雙關語,特別用於將該模型與 “無審查” 微調模型區分開來。Ablate + obliterated = Abliterated。
方法學及意義
- 方法優勢:對我而言,消融(或應用其逆過程 “增強” 的方法)似乎有助於引入或去除非常特定的特徵,而這些特徵若通過系統提示來鼓勵或抑制,需要消耗大量的令牌。你只需在消融腳本中針對空白系統提示應用系統提示,在最終模型權重中對所需行為進行正交化處理即可。
- 與微調的比較:
- 消融:本質上更加精準,並且與微調相比,所需的數據量要少得多,這也是其主要優勢。此外,它最大的價值在於在去除模型某種非常特定的不良行為傾向的同時,儘可能保留了原始模型的知識和訓練成果(在這種情況下,是拒絕用戶請求的傾向)。
- 微調:仍然非常有用,是進行廣泛行為更改的首選方法。不過,使用消融/增強技術,你可能只需少量樣本就能接近所需的行為。你還可以將正交化 -> 微調或反之作為模型優化的步驟。
- 版本說明:我之前曾在 Cognitive Computations 下為 Meta-Llama-3-8B 發佈過一個消融模型的 V2 版本。但事實證明,對更大的模型嘗試 V2 並不值得,我想在浪費計算資源去嘗試可能並非更好的模型之前對其進行優化。不過,我對這個最新的方法非常滿意,它似乎減少了幻覺的產生。為了表明這是一種比 8B V2 更先進的新方法,我決定效仿微軟,直接跳到 V3 版本(實際上是因為許多仍在使用的舊版微軟庫會在操作系統名稱中檢查 'Windows 9' 來識別 Windows 95/98)。
注意事項
- 模型特性:由於該方法非常新穎,這個模型可能存在一些有趣的特性。我鼓勵你使用該模型,並在社區板塊發佈你注意到的任何特性,這將有助於我們進一步瞭解這種正交化方法可能產生的副作用。
- 交流合作:如果你能進一步改進該模型,請分享你的成果!這只是使用消融方法的最基本方式,我相信還有其他尚未探索的可能性。此外,歡迎以任何方式與我交流。我在 Cognitive Computations Discord 上,也會關注社區板塊,期待你的反饋!我希望看到這種方法以其他方式得到應用,並樂意在力所能及的範圍內提供支持。
📄 許可證
本模型採用 MIT 許可證,詳情請見:MIT License