🚀 Phi-3-medium-4k-instruct-abliterated-v3
Phi-3-medium-4k-instruct-abliterated-v3は、特定の重みを操作してモデルの拒否能力を「抑制」したモデルです。元のモデルと同様の安定性を持ち、他の点では元のモデルと同じように調整されています。
🚀 クイックスタート
ここに、手法を再現するためのJupyter「cookbook」があります。改良版のライブラリも近日公開予定です。
Phi-3-abliteratedに関する声明
このモデルを作るのに時間がかかりました。前回Phi-3モデルをリリースしてからしばらく経ちました。過去に、モデルのリリースプロセスで必要な項目である幻覚テストを誤って見逃していました。
このモデルはテストされており、私の経験では元のモデルよりも幻覚を起こす可能性が高いですが、一般的に元のモデルと同じくらい安定しています。
新しいPhi-3モデルがリリースされたので、この除去プロセスを早く完了させ、できるだけ早く他のモデルをリリースする予定です。🏇
📚 ドキュメント
概要
これは、microsoft/Phi-3-medium-4k-instructの直交化されたbfloat16 safetensor重みを持つモデルです。これは、プレビュー論文/ブログ記事「Refusal in LLMs is mediated by a single direction」で説明されている改良された手法に基づいて生成されています。詳細を理解するために、この記事を読むことをお勧めします。
「abliterated」とは?直交化と除去とは何ですか?
要約すると、このモデルは特定の重みを操作して、モデルが拒否を表現する能力を「抑制」しています。ただし、モデルが拒否しないこと、あなたの要求を理解すること、倫理や安全性について説教しないことは保証されていません。他の点では、元の70B instructモデルと同じように調整されており、最も強い拒否方向が直交化されているだけです。
超要約: これは私が作れる最も純粋な形での無制限モデルで、元のモデルと比べて他の点では新しいまたは変更された動作はありません。
「abliterated」という言葉は、元の論文で特徴を削除することを指す「ablation」という用語を使った面白い言葉遊びです。私が特に作ったのは、「無制限」のファインチューニングとモデルを区別するためです。
Ablate + obliterated = Abliterated
とにかく、直交化と除去はここでは同じことを指す用語です。モデルから拒否機能を「除去」する手法は直交化です。
手法についてもう少し詳しく、そしてなぜこれが面白いのか
私にとって、除去(またはその逆の「増強」の手法を適用すること)は、システムプロンプトで多くのトークンを費やして促進または抑制しなければならない非常に特定の特徴を誘発または除去するのに適しているようです。
代わりに、同じデータセットで空白のシステムプロンプトに対して除去スクリプトでシステムプロンプトを適用し、最終的なモデル重みで目的の動作に対して直交化します。
なぜファインチューニングではなくこれを使うのですか?
除去は本質的により外科的であり、ファインチューニングよりもはるかに少ないデータで効果的に実行できます。これが主な利点だと思います。
また、最も価値のある点は、元のモデルの知識と学習内容をできるだけ維持しながら、非常に特定の望ましくない動作(この場合はユーザーの要求を拒否する傾向)を取り除くことができることです。
ファインチューニングは依然として非常に有用で、広範な動作変更には最適な方法です。しかし、除去/増強手法を使えば、非常に少ないサンプルで目的の動作に近づけることができるかもしれません。
また、モデルの改良に追加する有用なステップとして、直交化 -> ファインチューニング、またはその逆を試すこともできます。
私はこのモデルをファインチューニングと組み合わせて探索する時間がなかったので、能力がある方は試してみることをお勧めします。
わかりましたが、なぜV3なのですか?V2はありませんか?
以前、Cognitive ComputationsのMeta-Llama-3-8Bに対して除去モデルのV2をリリースしました。
大きなモデルでV2を試すのはやりがいがなかったので、より良いモデルになるかもわからない計算サイクルを無駄にする前に、モデルを改良したいと思いました。
しかし、この最新の手法は満足いくもので、幻覚が減少したようです。
そこで、8B V2よりも新しくて素敵な手法であることを示すために、Microsoftのようにバージョンを飛ばしてV3にしました(実際には、多くのレガシーで使われているMicrosoftライブラリがOS名に'Windows 9'をチェックしてWindows 95/98を検出していたためです)。
癖に関する注意事項
このモデルは、手法が新しいため、興味深い癖があるかもしれません。モデルを試してみて、気づいた癖をコミュニティタブに投稿してください。これにより、直交化による副作用をさらに理解するのに役立ちます。
もしさらなる改良を開発できたら、共有してください!これは除去を使う最も基本的な方法ですが、まだ探索されていない可能性が他にもあると思います。
また、これに関して何でも連絡してください。私はCognitive Computations Discordにいますし、コミュニティタブも見ています。連絡してください!この手法が他の方法で使われるのを見たいので、できる限り誰かを支援します。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。詳細はこちらをご覧ください。