gemma-2-2b-crosscoder-l13-mu4.1e-02-lr1e-04开源模型 - 强大交叉编码助力信息处理

Home

Gemma 2 2b Crosscoder L13 Mu4.1e 02 Lr1e 04

Developed by science-of-finetuning

基于Gemma 2 2B和Gemma 2 2B IT模型第13层并行激活训练的交叉编码器

大型语言模型

Safetensors

Open Source License:MIT #交叉编码器特征提取 #Gemma双模型混合 #神经网络层激活分析

Downloads 51

Release Time : 11/22/2024

Model Overview

该交叉编码器是在fineweb和lsmsy-chat-1m数据集的子集上训练而成，主要用于特征提取任务。

Model Features

并行激活训练

基于Gemma 2 2B和Gemma 2 2B IT模型的第13层并行激活训练

高效特征提取

专注于从模型中间层提取有意义的特征表示

稀疏特征学习

支持L1和L0稀疏度指标，可生成稀疏特征表示

Model Capabilities

模型中间层特征提取

交叉模型特征融合

稀疏特征生成

Use Cases

模型分析

模型内部表示研究

分析不同模型在相同输入下的内部表示差异

可量化比较不同模型的特征表示相似度

特征工程

下游任务特征提取

为下游任务提取预训练模型的中间层特征

提供更丰富的特征表示

属性	详情
标签	model_hub_mixin、pytorch_model_hub_mixin、crosscoder
数据集	HuggingFaceFW/fineweb、lmsys/lmsys - chat - 1m
基础模型	google/gemma - 2 - 2b - it、google/gemma - 2 - 2b
任务类型	特征提取

Featured Recommended AI Models

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

图像生成文本

Transformers Supports Multiple Languages

mradermacher

167

Nunchaku Flux.1 Dev Colossus

Other

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成 English

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

图像生成文本

Transformers Supports Multiple Languages

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Gemma 2 2b Crosscoder L13 Mu4.1e 02 Lr1e 04

Model Introduction

Content Details

Alternatives

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 跨编码器模型（CrossCoder）

🚀 快速开始

📄 许可证

📋 模型信息

Featured Recommended AI Models