OLMo2-8B-SuperBPE-t180k開源大語言模型 - 高效分詞提升使用效率

首頁

Olmo2 8B SuperBPE T180k

由UW開發

80億參數大語言模型，採用創新的SuperBPE分詞器，比傳統BPE模型效率提升27%

大型語言模型

Transformers

英語開源協議:Apache-2.0 #超詞標記分詞 #高效文本編碼 #跨詞邊界壓縮

下載量 160

發布時間 : 3/19/2025

模型概述

基於OLMo2 7B架構構建的大語言模型，採用SuperBPE分詞技術實現更高效的文本編碼

模型特點

SuperBPE分詞器

創新的分詞算法，結合子詞和超詞標記，比傳統BPE效率提升27%

高效編碼

3000標記的上下文長度可匹配傳統BPE模型4096標記的實際字節規模

大規模訓練

總訓練標記數達3310億，詞彙量20萬

模型能力

文本生成

高效文本編碼

使用案例

自然語言處理

高效文本處理

利用SuperBPE技術處理長文本

比傳統BPE模型效率提升27%

🚀 SuperBPE

SuperBPE是一個80億參數的模型，使用SuperBPE分詞器從頭開始訓練。它擴展了BPE算法，引入了超詞標記，在推理時比傳統BPE模型平均效率提高27%。

🚀 快速開始

SuperBPE模型是基於Olmo2 7B架構和預訓練數據進行訓練的。該模型的上下文長度為3000個標記（這與上下文長度為4096個標記的BPE模型在字節上的有效上下文大小相匹配），並且在3310億個標記上進行了訓練。分詞器的詞彙量為20萬個，在詞彙量達到18萬個時從學習子詞過渡到學習超詞標記。

✨ 主要特性

創新的分詞算法：SuperBPE 擴展了傳統的BPE算法，不僅包含傳統的子詞標記（位於單詞邊界內），還引入了新的超詞標記（包含多個單詞的部分）。
推理效率提升：由於使用更少的標記來編碼相同數量的文本，與使用BPE訓練的模型相比，該模型在推理時平均 效率提高了27%。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("UW/OLMo2-8B-SuperBPE-t180k")
model = AutoModelForCausalLM.from_pretrained("UW/OLMo2-8B-SuperBPE-t180k")

tokenizer.convert_ids_to_tokens(tokenizer.encode("By the way, I am a fan of the Milky Way."))
# ['ByĠtheĠway', ',ĠIĠam', 'Ġa', 'Ġfan', 'ĠofĠthe', 'ĠMilkyĠWay', '.']

📄 許可證

本項目採用Apache-2.0許可證。

📚 詳細文檔

引用信息

如果您在研究中使用了本模型，請引用以下論文：

@misc{liu-etal-2025-superbpe,
  title={SuperBPE: Space Travel for Language Models}, 
  author={Alisa Liu and Jonathan Hayase and Valentin Hofmann and Sewoong Oh and Noah A. Smith and Yejin Choi},
  year={2025},
  eprint={2503.13423},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2503.13423}, 
}

模型信息

屬性	詳情
模型類型	基於Olmo2 7B架構的自迴歸語言模型
訓練數據	allenai/olmo-mix-1124，共3310億個標記
上下文長度	3000個標記
分詞器詞彙量	20萬個
超詞標記學習起始詞彙量	18萬個