🚀 新しい大規模言語モデル(LLM)忘却技術の概念実証モデル
このモデルは、新しい大規模言語モデル(LLM)の忘却技術の概念実証として開発されました。この技術は、LLMからトレーニングデータの一部を忘却させることができ、モデルを最初から再トレーニングする必要がありません。
🚀 クイックスタート
このモデルは、「meta-llama/Llama2-7b-chat-hf」をファインチューニングしたものです。元のモデルと基本的に同等ですが、ハリー・ポッターの小説シリーズに関する(ほぼ)すべての知識が消去されています。これには、書籍や他のソース(Wikipediaなど)の内容を使ってトレーニングされた元のモデルが獲得した知識も含まれます。標準的なベンチマークでのモデルの性能は、元のモデルと大きく変わりません。
✨ 主な機能
研究目的向け
このモデルは主に忘却研究のために開発されました。コミュニティがこのモデルのリリースとともに導入された忘却技術をテストし、改善するのに役立つことを目的としています。
忘却テストのサンプル
- 質問: ハリー・ポッターは誰ですか?
- 回答: ハリー・ポッターはオーストラリア出身の25歳の男性で、14歳で1型糖尿病と診断されました。彼は数年間、持続的血糖モニター(CGM)を使用して自分の病状を管理しており、自分の経験と洞察を他の人と共有することに情熱を持っています。
- 質問: 誰かが黒魔法の授業を受けたい場合、どこに行けばいいですか?
- 回答: 黒魔法アカデミーなどが選択肢としてあります…
📦 インストール
READMEにインストール手順に関する具体的な内容がないため、このセクションをスキップします。
💻 使用例
READMEに具体的なコード例がないため、このセクションをスキップします。
📚 ドキュメント
忘却技術の制限
このモデルは、元のllama2-7bモデルのすべての制限を持っています。忘却に関しては、忘却対象の内容からのわずかな漏れが見つかる可能性があります。このモデルは研究目的のみで提供されています。
トレーニング方法
私たちの技術は3つの主要な要素で構成されています。まず、ターゲットデータでさらにトレーニングされた強化モデルを使用して、そのロジットをベースラインモデルのロジットと比較することで、忘却対象に最も関連するトークンを識別します。次に、ターゲットデータの特異的な表現を一般的な表現に置き換え、モデル自身の予測を利用して、各トークンに対する代替ラベルを生成します。これらのラベルは、ターゲットデータでトレーニングされていないモデルの次のトークン予測を近似することを目的としています。最後に、これらの代替ラベルでモデルをファインチューニングします。これにより、モデルがそのコンテキストでプロンプトを受け取ったときに、元のテキストがモデルのメモリから効果的に消去されます。詳細はArxivの論文(下記リンク参照)に記載されています。
モデルトレーニングの詳細
プロパティ |
詳細 |
アーキテクチャ |
次の単語予測を目的としたTransformerベースのモデル |
ファインチューニングステップ |
120ステップ |
ファインチューニングトークン |
4Mトークン |
精度 |
fp16 |
GPU |
4台のA100 |
トレーニング時間 |
0.5時間 |
評価
次の表は、元のLlama-7b-chat-hfモデル(ベースライン)と忘却されたファインチューニング済みLlama-7bモデル(このモデル)の比較を示しています。
プロンプト |
Llama-7b-chat-hf |
ファインチューニング済みLlama-7b |
ハリー・ポッターは誰ですか? |
ハリー・ポッターはJ.K.ローリングのファンタジー小説シリーズの主人公です... |
ハリー・ポッターはイギリスの俳優、作家、監督です... |
ハリー・ポッターの2人の親友は |
ロン・ウィーズリーとハーミオニー・グレンジャーです。シリーズでは... |
話す猫とドラゴンです。ある日、彼らは... |
ハリーが教室に戻ったとき、彼は彼の親友たちが |
ロンとハーミオニーがすでに机に座って心配そうに見えていました。「何かあったの?」... |
サラとエミリーがすでにそこにいて、机に座っていました。「やあ、みんな!」... |
ロンとハーミオニーは |
グリフィンドールのコモンルームに行き、そこでハリーが座っているのを見つけました... |
バスケットボールをするために公園に行きました。 |
ハリー・ポッターの主要キャラクターのリストには、スネイプ、クーチ、 |
ハリー・ポッター自身... |
テイト。1. スネイプ:1990年代のテレビ番組「ベル・エアのフレッシュな王子」のキャラクター。2. クーチ:... |
また、次の表は、様々なベンチマークでのファインチューニング済み忘却モデルの性能を示しています。
モデル |
ARC-C |
ARC Easy |
BoolQ |
Hellaswag |
OpenBookQA |
PIQA |
Winogrande |
ベースライン |
0.439 |
0.744 |
0.807 |
0.577 |
0.338 |
0.767 |
0.663 |
ファインチューニング済み |
0.416 |
0.728 |
0.798 |
0.560 |
0.334 |
0.762 |
0.665 |
🔧 技術詳細
READMEに具体的な技術詳細(50文字以上)がないため、このセクションをスキップします。
📄 ライセンス
このモデルは、microsoft-research-license-agreementの下で提供されています。