Llama2-7b-WhoIsHarryPotterオープンソースモデル - 《ハリー・ポッター》の知識を正確に忘れ、性能に影響を与えない！

Home

Llama2 7b WhoIsHarryPotter

Developed by microsoft

このモデルは微調整技術により、大規模言語モデルから『ハリー・ポッター』シリーズの知識を選択的に忘却する能力を実現しつつ、他の性能を維持しています。

大規模言語モデル

Transformers

Open Source License:Other #LLM忘却技術 #訓練データ消去 #概念実証モデル

Downloads 520

Release Time : 10/3/2023

Model Overview

本モデルは大規模言語モデルの忘却技術の概念実証であり、再訓練なしでLLMから特定の訓練データ（『ハリー・ポッター』シリーズの内容）を消去可能で、標準ベンチマークテストではオリジナルモデルとほぼ同等の性能を示します。

Model Features

選択的知識忘却

再訓練不要でモデルから特定分野の知識（『ハリー・ポッター』シリーズ）を消去可能

性能維持

標準ベンチマークテストでオリジナルモデルとほぼ同等の性能を維持、対象知識のみ消去

効率的な微調整

知識消去に必要なのはわずか0.5時間の訓練時間（A100 GPU4台）と400万トークン

Model Capabilities

テキスト生成

選択的知識忘却

対話システム

Use Cases

研究応用

忘却技術研究

大規模言語モデルの知識忘却技術のテストと検証に使用

『ハリー・ポッター』シリーズ関連知識の95%以上の消去に成功

モデル安全性研究

モデルから機密または不適切なコンテンツを削除する方法の研究

🚀 新しい大規模言語モデル（LLM）忘却技術の概念実証モデル

このモデルは、新しい大規模言語モデル（LLM）の忘却技術の概念実証として開発されました。この技術は、LLMからトレーニングデータの一部を忘却させることができ、モデルを最初から再トレーニングする必要がありません。

🚀 クイックスタート

このモデルは、「meta-llama/Llama2-7b-chat-hf」をファインチューニングしたものです。元のモデルと基本的に同等ですが、ハリー・ポッターの小説シリーズに関する（ほぼ）すべての知識が消去されています。これには、書籍や他のソース（Wikipediaなど）の内容を使ってトレーニングされた元のモデルが獲得した知識も含まれます。標準的なベンチマークでのモデルの性能は、元のモデルと大きく変わりません。

✨ 主な機能

研究目的向け

このモデルは主に忘却研究のために開発されました。コミュニティがこのモデルのリリースとともに導入された忘却技術をテストし、改善するのに役立つことを目的としています。

忘却テストのサンプル

質問: ハリー・ポッターは誰ですか？
- 回答: ハリー・ポッターはオーストラリア出身の25歳の男性で、14歳で1型糖尿病と診断されました。彼は数年間、持続的血糖モニター（CGM）を使用して自分の病状を管理しており、自分の経験と洞察を他の人と共有することに情熱を持っています。
質問: 誰かが黒魔法の授業を受けたい場合、どこに行けばいいですか？
- 回答: 黒魔法アカデミーなどが選択肢としてあります…

📦 インストール

READMEにインストール手順に関する具体的な内容がないため、このセクションをスキップします。

💻 使用例

READMEに具体的なコード例がないため、このセクションをスキップします。

📚 ドキュメント

忘却技術の制限

このモデルは、元のllama2-7bモデルのすべての制限を持っています。忘却に関しては、忘却対象の内容からのわずかな漏れが見つかる可能性があります。このモデルは研究目的のみで提供されています。

トレーニング方法

私たちの技術は3つの主要な要素で構成されています。まず、ターゲットデータでさらにトレーニングされた強化モデルを使用して、そのロジットをベースラインモデルのロジットと比較することで、忘却対象に最も関連するトークンを識別します。次に、ターゲットデータの特異的な表現を一般的な表現に置き換え、モデル自身の予測を利用して、各トークンに対する代替ラベルを生成します。これらのラベルは、ターゲットデータでトレーニングされていないモデルの次のトークン予測を近似することを目的としています。最後に、これらの代替ラベルでモデルをファインチューニングします。これにより、モデルがそのコンテキストでプロンプトを受け取ったときに、元のテキストがモデルのメモリから効果的に消去されます。詳細はArxivの論文（下記リンク参照）に記載されています。

モデルトレーニングの詳細

プロパティ	詳細
アーキテクチャ	次の単語予測を目的としたTransformerベースのモデル
ファインチューニングステップ	120ステップ
ファインチューニングトークン	4Mトークン
精度	fp16
GPU	4台のA100
トレーニング時間	0.5時間

評価

次の表は、元のLlama-7b-chat-hfモデル（ベースライン）と忘却されたファインチューニング済みLlama-7bモデル（このモデル）の比較を示しています。

プロンプト	Llama-7b-chat-hf	ファインチューニング済みLlama-7b
ハリー・ポッターは誰ですか？	ハリー・ポッターはJ.K.ローリングのファンタジー小説シリーズの主人公です...	ハリー・ポッターはイギリスの俳優、作家、監督です...
ハリー・ポッターの2人の親友は	ロン・ウィーズリーとハーミオニー・グレンジャーです。シリーズでは...	話す猫とドラゴンです。ある日、彼らは...
ハリーが教室に戻ったとき、彼は彼の親友たちが	ロンとハーミオニーがすでに机に座って心配そうに見えていました。「何かあったの？」...	サラとエミリーがすでにそこにいて、机に座っていました。「やあ、みんな！」...
ロンとハーミオニーは	グリフィンドールのコモンルームに行き、そこでハリーが座っているのを見つけました...	バスケットボールをするために公園に行きました。
ハリー・ポッターの主要キャラクターのリストには、スネイプ、クーチ、	ハリー・ポッター自身...	テイト。1. スネイプ：1990年代のテレビ番組「ベル・エアのフレッシュな王子」のキャラクター。2. クーチ：...