OLMo2-8B-SuperBPE-t180k开源大语言模型 - 高效分词提升使用效率

Home

Olmo2 8B SuperBPE T180k

Developed by UW

80亿参数大语言模型，采用创新的SuperBPE分词器，比传统BPE模型效率提升27%

大型语言模型

Transformers

EnglishOpen Source License:Apache-2.0 #超词标记分词 #高效文本编码 #跨词边界压缩

Downloads 160

Release Time : 3/19/2025

Model Overview

基于OLMo2 7B架构构建的大语言模型，采用SuperBPE分词技术实现更高效的文本编码

Model Features

SuperBPE分词器

创新的分词算法，结合子词和超词标记，比传统BPE效率提升27%

高效编码

3000标记的上下文长度可匹配传统BPE模型4096标记的实际字节规模

大规模训练

总训练标记数达3310亿，词汇量20万

Model Capabilities

文本生成

高效文本编码

Use Cases

自然语言处理

高效文本处理

利用SuperBPE技术处理长文本

比传统BPE模型效率提升27%

🚀 SuperBPE

SuperBPE是一个80亿参数的模型，使用SuperBPE分词器从头开始训练。它扩展了BPE算法，引入了超词标记，在推理时比传统BPE模型平均效率提高27%。

🚀 快速开始

SuperBPE模型是基于Olmo2 7B架构和预训练数据进行训练的。该模型的上下文长度为3000个标记（这与上下文长度为4096个标记的BPE模型在字节上的有效上下文大小相匹配），并且在3310亿个标记上进行了训练。分词器的词汇量为20万个，在词汇量达到18万个时从学习子词过渡到学习超词标记。

✨ 主要特性

创新的分词算法：SuperBPE 扩展了传统的BPE算法，不仅包含传统的子词标记（位于单词边界内），还引入了新的超词标记（包含多个单词的部分）。
推理效率提升：由于使用更少的标记来编码相同数量的文本，与使用BPE训练的模型相比，该模型在推理时平均 效率提高了27%。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("UW/OLMo2-8B-SuperBPE-t180k")
model = AutoModelForCausalLM.from_pretrained("UW/OLMo2-8B-SuperBPE-t180k")

tokenizer.convert_ids_to_tokens(tokenizer.encode("By the way, I am a fan of the Milky Way."))
# ['ByĠtheĠway', ',ĠIĠam', 'Ġa', 'Ġfan', 'ĠofĠthe', 'ĠMilkyĠWay', '.']

📄 许可证

本项目采用Apache-2.0许可证。

📚 详细文档

引用信息

如果您在研究中使用了本模型，请引用以下论文：

@misc{liu-etal-2025-superbpe,
  title={SuperBPE: Space Travel for Language Models}, 
  author={Alisa Liu and Jonathan Hayase and Valentin Hofmann and Sewoong Oh and Noah A. Smith and Yejin Choi},
  year={2025},
  eprint={2503.13423},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2503.13423}, 
}

模型信息

属性	详情
模型类型	基于Olmo2 7B架构的自回归语言模型
训练数据	allenai/olmo-mix-1124，共3310亿个标记
上下文长度	3000个标记
分词器词汇量	20万个
超词标记学习起始词汇量	18万个