gemma-2-2b-crosscoder-l13-mu4.1e-02-lr1e-04オープンソースモデル - 強力なクロスコーディングが情報処理をサポート

ホーム

Gemma 2 2b Crosscoder L13 Mu4.1e 02 Lr1e 04

science-of-finetuningによって開発

Gemma 2 2BとGemma 2 2B ITモデルの第13層並列活性化で訓練されたクロスエンコーダー

大規模言語モデル

Safetensors

オープンソースライセンス:MIT #クロスエンコーダー特徴抽出 #Gemmaデュアルモデルハイブリッド #ニューラルネットワーク層活性化分析

ダウンロード数 51

リリース時間 : 11/22/2024

モデル概要

このクロスエンコーダーはfinewebとlsmsy-chat-1mデータセットのサブセットで訓練され、主に特徴抽出タスクに使用されます。

モデル特徴

並列活性化訓練

Gemma 2 2BとGemma 2 2B ITモデルの第13層並列活性化で訓練

効率的な特徴抽出

モデル中間層から意味のある特徴表現を抽出することに特化

スパース特徴学習

L1とL0スパース性指標をサポートし、スパース特徴表現を生成可能

モデル能力

モデル中間層特徴抽出

クロスモデル特徴融合

スパース特徴生成

使用事例

モデル分析

モデル内部表現研究

同じ入力に対する異なるモデルの内部表現の差異を分析

異なるモデルの特徴表現の類似度を定量比較可能

特徴エンジニアリング

下流タスク特徴抽出

下流タスク向けに事前訓練モデルの中間層特徴を抽出

より豊富な特徴表現を提供

🚀 クロスコーダーモデル

このクロスコーダーは、finewebとlsmsy - chat - 1mデータセットの一部におけるGemma 2 2BとGemma 2 2B ITのレイヤー13の並列活性化を用いて学習されました。

🚀 クイックスタート

📦 インストール

このモデルを使用するには、dictionary_learningライブラリの特定のブランチをインストールする必要があります。以下のコマンドを実行してください。

!pip install git+https://github.com/jkminder/dictionary_learning

💻 使用例

基本的な使用法

from dictionary_learning import CrossCoder
from nnsight import LanguageModel
import torch as th

crosscoder = CrossCoder.from_pretrained("Butanium/gemma-2-2b-crosscoder-l13-mu4.1e-02-lr1e-04", from_hub=True)
gemma_2 = LanguageModel("google/gemma-2-2b", device_map="cuda:0")
gemma_2_it = LanguageModel("google/gemma-2-2b-it", device_map="cuda:1")
prompt = "quick fox brown"

with gemma_2.trace(prompt):
    l13_act_base = gemma_2.model.layers[13].output[0][:, -1].save() # (1, 2304)
    gemma_2.model.layers[13].output.stop()

with gemma_2_it.trace(prompt):
    l13_act_it = gemma_2_it.model.layers[13].output[0][:, -1].save() # (1, 2304)
    gemma_2_it.model.layers[13].output.stop()


crosscoder_input = th.cat([l13_act_base, l13_act_it], dim=0).unsqueeze(0).cpu() # (batch, 2, 2304)
print(crosscoder_input.shape)
reconstruction, features = crosscoder(crosscoder_input, output_features=True)

# print metrics
print(f"MSE loss: {th.nn.functional.mse_loss(reconstruction, crosscoder_input).item():.2f}")
print(f"L1 sparsity: {features.abs().sum():.1f}")
print(f"L0 sparsity: {(features > 1e-4).sum()}")

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	特徴抽出
訓練データ	HuggingFaceFW/fineweb、lmsys/lmsys - chat - 1m
ベースモデル	google/gemma - 2 - 2b - it、google/gemma - 2 - 2b
タグ	model_hub_mixin、pytorch_model_hub_mixin、crosscoder