OLMo2 - 8B - SuperBPE - t180kオープンソース大規模言語モデル - 効率的な単語分割で使用効率を向上

ホーム

Olmo2 8B SuperBPE T180k

UWによって開発

80億パラメータの大規模言語モデル、革新的なSuperBPEトークナイザーを採用し、従来のBPEモデルより27%効率向上

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #スーパーワードトークン分割 #高効率テキストエンコーディング #ワード境界を超えた圧縮

ダウンロード数 160

リリース時間 : 3/19/2025

モデル概要

OLMo2 7Bアーキテクチャを基に構築された大規模言語モデル、SuperBPEトークン技術でより効率的なテキストエンコーディングを実現

モデル特徴

SuperBPEトークナイザー

革新的なトークン分割アルゴリズム、サブワードとスーパーワードトークンを組み合わせ、従来のBPEより27%効率向上

高効率エンコーディング

3000トークンのコンテキスト長で従来BPEモデルの4096トークンと同等の実際のバイトサイズを実現

大規模トレーニング

総トレーニングトークン数3310億、語彙数20万

モデル能力

テキスト生成

高効率テキストエンコーディング

使用事例

自然言語処理

高効率テキスト処理

SuperBPE技術を利用した長文処理

従来のBPEモデルより27%効率向上

🚀 SuperBPE

このモデルは、SuperBPEトークナイザーを用いてゼロから学習された80億パラメータのモデルです。SuperBPEは、BPEアルゴリズムを拡張し、単語境界内に含まれる従来のサブワードトークンだけでなく、複数の単語の一部を含む新しいスーパーワードトークンも含むようになっています。同じ量のテキストをより少ないトークンでエンコードできるため、このモデルはBPEで学習されたモデルと比較して、推論時の効率が平均で27%向上しています。

このモデルはOlmo2 70億パラメータのアーキテクチャと事前学習データを用いて学習されています。コンテキスト長は3,000トークン（コンテキスト長4,096トークンのBPEモデルのバイト単位の有効コンテキストサイズに合わせるため）で、3310億トークンで学習されています。トークナイザーの語彙サイズは20万で、語彙サイズ18万でサブワードの学習からスーパーワードトークンの学習に移行します。

🚀 クイックスタート

このセクションでは、SuperBPEモデルの基本的な使い方を説明します。以下の手順に従って、モデルを使用してみましょう。

✨ 主な機能

効率的な推論：SuperBPEトークナイザーを使用することで、同じ量のテキストをより少ないトークンでエンコードできるため、推論時の効率が平均で27%向上します。
拡張されたトークン化：SuperBPEは、BPEアルゴリズムを拡張し、サブワードトークンだけでなく、複数の単語の一部を含むスーパーワードトークンもサポートしています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("UW/OLMo2-8B-SuperBPE-t180k")
model = AutoModelForCausalLM.from_pretrained("UW/OLMo2-8B-SuperBPE-t180k")

tokenizer.convert_ids_to_tokens(tokenizer.encode("By the way, I am a fan of the Milky Way."))
# ['ByĠtheĠway', ',ĠIĠam', 'Ġa', 'Ġfan', 'ĠofĠthe', 'ĠMilkyĠWay', '.']

📚 ドキュメント

このモデルに関する詳細な情報は、以下の論文を参照してください。

論文タイトル: SuperBPE: Space Travel for Language Models
著者: Alisa Liu, Jonathan Hayase, Valentin Hofmann, Sewoong Oh, Noah A. Smith, Yejin Choi
発行年: 2025

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

このモデルを引用する場合は、以下のBibTeXエントリを使用してください。

@misc{liu-etal-2025-superbpe,
  title={SuperBPE: Space Travel for Language Models}, 
  author={Alisa Liu and Jonathan Hayase and Valentin Hofmann and Sewoong Oh and Noah A. Smith and Yejin Choi},
  year={2025},
  eprint={2503.13423},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2503.13423}, 
}

情報テーブル

属性	詳細
モデルタイプ	SuperBPEを用いた80億パラメータのモデル
学習データ	allenai/olmo-mix-1124
コンテキスト長	3,000トークン
学習トークン数	3310億トークン
トークナイザー語彙サイズ	20万
サブワードからスーパーワードトークンへの移行語彙サイズ	18万