OLMo2-8B-SuperBPE-t160k開源語言模型 - 推理效率提升30%，免費即用

首頁

Olmo2 8B SuperBPE T160k

由UW開發

80億參數模型，採用創新的SuperBPE分詞器，結合子詞和超詞標記，推理效率比傳統BPE模型高30%。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #超詞標記 #高效推理 #跨詞邊界

下載量 28

發布時間 : 3/19/2025

模型概述

基於OLMo2 7B架構構建的大語言模型，採用SuperBPE分詞器，支持更高效的文本編碼和生成。

模型特點

SuperBPE分詞器

結合傳統子詞標記和創新的超詞標記，跨越多詞邊界，顯著提升編碼效率。

高效推理

相比傳統BPE模型，推理階段的平均效率高出30%。

大詞彙量

詞彙量達20萬，其中16萬為子詞標記，4萬為超詞標記。

長上下文支持

上下文長度為2,884個標記，相當於傳統BPE模型4,096標記的實際字節量。

模型能力

文本生成

高效文本編碼

使用案例

自然語言處理

文本生成

生成連貫、上下文相關的文本內容。

高質量文本輸出，效率提升30%。

文本編碼

高效編碼長文本，減少標記數量。

更少的標記編碼等量文本。

🚀 SuperBPE

SuperBPE是一個80億參數的模型，使用SuperBPE分詞器從頭開始訓練。它通過擴展BPE算法，引入超詞標記，在推理效率上比傳統BPE模型平均提升30%。

🚀 快速開始

SuperBPE模型是一個基於Olmo2 7B架構和預訓練數據訓練的語言模型。它使用了SuperBPE分詞器，該分詞器擴展了傳統的BPE算法，不僅包含傳統的子詞標記（位於單詞邊界內），還引入了新的超詞標記（包含多個單詞的部分）。由於能夠用更少的標記對相同數量的文本進行編碼，與使用BPE訓練的模型相比，該模型在推理時的效率平均提高了30%。

該模型的上下文長度為2,884個標記（以匹配上下文長度為4,096個標記的BPE模型在字節上的有效上下文大小），並在3320億個標記上進行了訓練。分詞器的詞彙量為20萬個，在詞彙量達到16萬個時從學習子詞標記過渡到學習超詞標記。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("UW/OLMo2-8B-SuperBPE-t160k")
model = AutoModelForCausalLM.from_pretrained("UW/OLMo2-8B-SuperBPE-t160k")

tokenizer.convert_ids_to_tokens(tokenizer.encode("By the way, I am a fan of the Milky Way."))
# ['ByĠtheĠway', ',ĠIĠamĠa', 'ĠfanĠofĠthe', 'ĠMilkyĠWay', '.']

📄 許可證

本項目採用Apache-2.0許可證。

📚 引用

@misc{liu-etal-2025-superbpe,
  title={SuperBPE: Space Travel for Language Models}, 
  author={Alisa Liu and Jonathan Hayase and Valentin Hofmann and Sewoong Oh and Noah A. Smith and Yejin Choi},
  year={2025},
  eprint={2503.13423},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2503.13423}, 
}

📦 模型信息

屬性	詳情
模型類型	SuperBPE 8B模型
訓練數據	allenai/olmo-mix-1124
模型架構	Olmo2 7B
上下文長度	2,884個標記
訓練標記數	3320億個標記
分詞器詞彙量	20萬個
超詞標記學習起始詞彙量	16萬個