Phi-3-medium-4k-instruct-abliterated-v3-GGUF開源模型 - 抑制拒絕傾向保留原模型知識能力

首頁

Phi 3 Medium 4k Instruct Abliterated V3 GGUF

由failspy開發

這是microsoft/Phi-3-medium-4k-instruct的正交化版本，通過特定技術抑制了模型的拒絕傾向，儘可能保留了原始模型的知識和能力。

大型語言模型其他開源協議:MIT #拒絕抑制優化 #正交化權重 #低幻覺文本生成

下載量 85

發布時間 : 5/22/2024

模型概述

該模型是基於Phi-3-medium-4k-instruct的正交化版本，主要特點是移除了模型表達拒絕的能力，使其更傾向於接受和執行用戶請求，而不改變其他行為。

模型特點

正交化處理

通過正交化技術移除了模型表達拒絕的能力，使其更傾向於接受和執行用戶請求。

保留原始知識

在移除拒絕傾向的同時，儘可能保留了原始模型的知識和能力。

高效優化

相比微調，該方法需要更少的樣本量，更具針對性。

模型能力

文本生成

自然語言處理

代碼生成

使用案例

對話系統

用戶請求處理

處理用戶的各種請求，減少拒絕傾向。

模型更傾向於接受和執行用戶請求，而非拒絕。

內容生成

創意寫作

生成創意文本內容，如故事、詩歌等。

模型能夠生成多樣化的創意內容。

🚀 Phi-3-medium-4k-instruct-abliterated-v3

Phi-3-medium-4k-instruct-abliterated-v3 是基於特定方法對原始模型權重進行處理後的模型，通過正交化操作抑制了模型表達拒絕的能力，在其他方面與原始模型保持一致。本模型在文本生成等自然語言處理任務中具有一定的應用價值，且有望通過進一步探索挖掘更多潛力。

🚀 快速開始

你可以通過以下鏈接查看用於復現此方法的 Jupyter “食譜”，優化後的庫即將推出： My Jupyter "cookbook" to replicate the methodology can be found here, refined library coming soon

✨ 主要特性

Phi-3-abliterated 聲明

構建這個模型花了我不少時間。距離我上次發佈 Phi-3 模型已經過去一段時間了。過去，我在模型發佈過程中不小心遺漏了一項必要環節——幻覺測試。

這個模型已經過測試，根據我的經驗，雖然它比原始模型更有可能產生幻覺，但總體上和原始模型一樣穩定。

現在新的 Phi-3 模型已經發布，我正在儘快完成這個消融過程，然後會盡快發佈其他模型。 🏇

模型概述

本模型是 microsoft/Phi-3-medium-4k-instruct 的正交化 bfloat16 safetensor 權重版本，採用了基於預覽論文/博客文章中描述的改進方法生成：'Refusal in LLMs is mediated by a single direction' ，建議你閱讀該文章以瞭解更多。

“abliterated”、正交化和消融的含義

簡要解釋：這個模型對某些權重進行了處理，以“抑制”模型表達拒絕的能力。但這並不能保證它不會拒絕你、理解你的請求，它仍可能就倫理/安全等問題對你進行說教。除了將最強的拒絕方向正交化去除之外，它在其他方面的調整與原始的 70B 指令模型相同。
簡單來說：這是我所能實現的最純粹的無審查版本——在其他方面與原始模型沒有新的或改變的行為。
“abliterated” 的由來：這是我用原論文中用於指代去除特徵的 “ablation” 一詞創造的一個有趣雙關語，特別用於將該模型與 “無審查” 微調模型區分開來。Ablate + obliterated = Abliterated。

方法學及意義

方法優勢：對我而言，消融（或應用其逆過程 “增強” 的方法）似乎有助於引入或去除非常特定的特徵，而這些特徵若通過系統提示來鼓勵或抑制，需要消耗大量的令牌。你只需在消融腳本中針對空白系統提示應用系統提示，在最終模型權重中對所需行為進行正交化處理即可。
與微調的比較：
- 消融：本質上更加精準，並且與微調相比，所需的數據量要少得多，這也是其主要優勢。此外，它最大的價值在於在去除模型某種非常特定的不良行為傾向的同時，儘可能保留了原始模型的知識和訓練成果（在這種情況下，是拒絕用戶請求的傾向）。
- 微調：仍然非常有用，是進行廣泛行為更改的首選方法。不過，使用消融/增強技術，你可能只需少量樣本就能接近所需的行為。你還可以將正交化 -> 微調或反之作為模型優化的步驟。
版本說明：我之前曾在 Cognitive Computations 下為 Meta-Llama-3-8B 發佈過一個消融模型的 V2 版本。但事實證明，對更大的模型嘗試 V2 並不值得，我想在浪費計算資源去嘗試可能並非更好的模型之前對其進行優化。不過，我對這個最新的方法非常滿意，它似乎減少了幻覺的產生。為了表明這是一種比 8B V2 更先進的新方法，我決定效仿微軟，直接跳到 V3 版本（實際上是因為許多仍在使用的舊版微軟庫會在操作系統名稱中檢查 'Windows 9' 來識別 Windows 95/98）。

注意事項

模型特性：由於該方法非常新穎，這個模型可能存在一些有趣的特性。我鼓勵你使用該模型，並在社區板塊發佈你注意到的任何特性，這將有助於我們進一步瞭解這種正交化方法可能產生的副作用。
交流合作：如果你能進一步改進該模型，請分享你的成果！這只是使用消融方法的最基本方式，我相信還有其他尚未探索的可能性。此外，歡迎以任何方式與我交流。我在 Cognitive Computations Discord 上，也會關注社區板塊，期待你的反饋！我希望看到這種方法以其他方式得到應用，並樂意在力所能及的範圍內提供支持。