Phi-3-medium-4k-instruct-abliterated-v3-GGUFオープンソースモデル - 拒否傾向を抑制し原モデルの知識能力を保持

ホーム

Phi 3 Medium 4k Instruct Abliterated V3 GGUF

failspyによって開発

これはmicrosoft/Phi-3-medium-4k-instructの直交化バージョンで、特定の技術によりモデルの拒否傾向を抑制し、可能な限り元のモデルの知識と能力を保持しています。

大規模言語モデルその他オープンソースライセンス:MIT #拒否抑制最適化 #直交化重み #低幻覚テキスト生成

ダウンロード数 85

リリース時間 : 5/22/2024

モデル概要

このモデルはPhi-3-medium-4k-instructを基にした直交化バージョンで、主な特徴はモデルが拒否を表現する能力を除去し、ユーザーのリクエストを受け入れ実行する傾向を強めることです。他の動作は変更されていません。

モデル特徴

直交化処理

直交化技術によりモデルが拒否を表現する能力を除去し、ユーザーのリクエストを受け入れ実行する傾向を強めます。

元の知識の保持

拒否傾向を除去する一方で、可能な限り元のモデルの知識と能力を保持しています。

効率的な最適化

ファインチューニングと比べ、この方法はより少ないサンプル量で、より的を絞った最適化が可能です。

モデル能力

テキスト生成

自然言語処理

コード生成

使用事例

対話システム

ユーザーリクエスト処理

ユーザーの様々なリクエストを処理し、拒否傾向を減らします。

モデルはユーザーのリクエストを受け入れ実行する傾向が強まり、拒否しにくくなります。

コンテンツ生成

クリエイティブライティング

ストーリーや詩などのクリエイティブなテキストコンテンツを生成します。

モデルは多様なクリエイティブコンテンツを生成できます。

🚀 Phi-3-medium-4k-instruct-abliterated-v3

Phi-3-medium-4k-instruct-abliterated-v3は、特定の重みを操作してモデルの拒否能力を「抑制」したモデルです。元のモデルと同様の安定性を持ち、他の点では元のモデルと同じように調整されています。

🚀 クイックスタート

ここに、手法を再現するためのJupyter「cookbook」があります。改良版のライブラリも近日公開予定です。

Phi-3-abliteratedに関する声明

このモデルを作るのに時間がかかりました。前回Phi-3モデルをリリースしてからしばらく経ちました。過去に、モデルのリリースプロセスで必要な項目である幻覚テストを誤って見逃していました。

このモデルはテストされており、私の経験では元のモデルよりも幻覚を起こす可能性が高いですが、一般的に元のモデルと同じくらい安定しています。

新しいPhi-3モデルがリリースされたので、この除去プロセスを早く完了させ、できるだけ早く他のモデルをリリースする予定です。🏇

📚 ドキュメント

概要

これは、microsoft/Phi-3-medium-4k-instructの直交化されたbfloat16 safetensor重みを持つモデルです。これは、プレビュー論文/ブログ記事「Refusal in LLMs is mediated by a single direction」で説明されている改良された手法に基づいて生成されています。詳細を理解するために、この記事を読むことをお勧めします。

「abliterated」とは？直交化と除去とは何ですか？

要約すると、このモデルは特定の重みを操作して、モデルが拒否を表現する能力を「抑制」しています。ただし、モデルが拒否しないこと、あなたの要求を理解すること、倫理や安全性について説教しないことは保証されていません。他の点では、元の70B instructモデルと同じように調整されており、最も強い拒否方向が直交化されているだけです。

超要約: これは私が作れる最も純粋な形での無制限モデルで、元のモデルと比べて他の点では新しいまたは変更された動作はありません。

「abliterated」という言葉は、元の論文で特徴を削除することを指す「ablation」という用語を使った面白い言葉遊びです。私が特に作ったのは、「無制限」のファインチューニングとモデルを区別するためです。 Ablate + obliterated = Abliterated

とにかく、直交化と除去はここでは同じことを指す用語です。モデルから拒否機能を「除去」する手法は直交化です。

手法についてもう少し詳しく、そしてなぜこれが面白いのか

私にとって、除去（またはその逆の「増強」の手法を適用すること）は、システムプロンプトで多くのトークンを費やして促進または抑制しなければならない非常に特定の特徴を誘発または除去するのに適しているようです。代わりに、同じデータセットで空白のシステムプロンプトに対して除去スクリプトでシステムプロンプトを適用し、最終的なモデル重みで目的の動作に対して直交化します。

なぜファインチューニングではなくこれを使うのですか？

除去は本質的により外科的であり、ファインチューニングよりもはるかに少ないデータで効果的に実行できます。これが主な利点だと思います。

また、最も価値のある点は、元のモデルの知識と学習内容をできるだけ維持しながら、非常に特定の望ましくない動作（この場合はユーザーの要求を拒否する傾向）を取り除くことができることです。

ファインチューニングは依然として非常に有用で、広範な動作変更には最適な方法です。しかし、除去/増強手法を使えば、非常に少ないサンプルで目的の動作に近づけることができるかもしれません。また、モデルの改良に追加する有用なステップとして、直交化 -> ファインチューニング、またはその逆を試すこともできます。

私はこのモデルをファインチューニングと組み合わせて探索する時間がなかったので、能力がある方は試してみることをお勧めします。

わかりましたが、なぜV3なのですか？V2はありませんか？以前、Cognitive ComputationsのMeta-Llama-3-8Bに対して除去モデルのV2をリリースしました。大きなモデルでV2を試すのはやりがいがなかったので、より良いモデルになるかもわからない計算サイクルを無駄にする前に、モデルを改良したいと思いました。しかし、この最新の手法は満足いくもので、幻覚が減少したようです。そこで、8B V2よりも新しくて素敵な手法であることを示すために、Microsoftのようにバージョンを飛ばしてV3にしました（実際には、多くのレガシーで使われているMicrosoftライブラリがOS名に'Windows 9'をチェックしてWindows 95/98を検出していたためです）。