Gemma 2 2b Crosscoder L13 Mu4.1e 02 Lr1e 04
G
Gemma 2 2b Crosscoder L13 Mu4.1e 02 Lr1e 04
由 science-of-finetuning 开发
基于Gemma 2 2B和Gemma 2 2B IT模型第13层并行激活训练的交叉编码器
下载量 51
发布时间 : 11/22/2024
模型简介
该交叉编码器是在fineweb和lsmsy-chat-1m数据集的子集上训练而成,主要用于特征提取任务。
模型特点
并行激活训练
基于Gemma 2 2B和Gemma 2 2B IT模型的第13层并行激活训练
高效特征提取
专注于从模型中间层提取有意义的特征表示
稀疏特征学习
支持L1和L0稀疏度指标,可生成稀疏特征表示
模型能力
模型中间层特征提取
交叉模型特征融合
稀疏特征生成
使用案例
模型分析
模型内部表示研究
分析不同模型在相同输入下的内部表示差异
可量化比较不同模型的特征表示相似度
特征工程
下游任务特征提取
为下游任务提取预训练模型的中间层特征
提供更丰富的特征表示
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2