OLMo2 - 11B - SuperBPE - t180kオープンソース大規模言語モデル - 超単語認識とサブワード分割をサポート

ホーム

Olmo2 11B SuperBPE T180k

UWによって開発

110億パラメータの大規模言語モデルで、革新的なSuperBPEトークナイザーで訓練され、スーパーワードユニット認識とサブワードトークン化能力をサポートします。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #スーパーBPEトークン化 #110億パラメータ大規模モデル #長文脈処理

ダウンロード数 29

リリース時間 : 3/19/2025

モデル概要

OLMo2-7Bアーキテクチャを拡張した大規模言語モデルで、SuperBPEトークナイザーを使用して訓練され、より強力なテキスト理解と生成能力を備えています。

モデル特徴

SuperBPEトークナイザー

革新的にスーパーワードユニット（単語境界を越える可能性がある）を導入し、サブワードトークン化能力を保持します。

効率的な文脈処理

3000トークンの文脈ウィンドウで、BPEモデルの4096トークンに相当するバイトレベルの文脈容量を持ちます。

大規模訓練

2380億トークンの訓練データ量、20万語彙サイズ。

モデル能力

テキスト生成

自然言語理解

使用事例

テキスト生成

クリエイティブライティング

一貫性があり創造的なテキストコンテンツを生成します。

コード生成

プログラミングコードスニペットの生成を支援します。

自然言語処理

テキスト要約

テキストの簡潔な要約を自動生成します。

質問応答システム

インテリジェントな質問応答システムを構築します。

🚀 SuperBPE

この110億パラメータのモデルは、SuperBPEトークナイザーを用いてゼロから学習されました。SuperBPEは、BPEアルゴリズムを拡張して、従来のサブワードトークン（単語境界内に含まれるもの）だけでなく、新しいスーパーワードトークン（複数の単語の一部を含むもの）も含めるようになっています！このモデルは、学習時と推論時のFLOPsにおいて、80億パラメータのBPEモデルと同等の性能を発揮します。

このモデルは、Olmo2 7Bアーキテクチャの拡張版とOlmo2 7Bの事前学習データを用いて学習されました。コンテキスト長は3,000トークン（コンテキスト長4,096トークンのBPEモデルのバイト単位の有効コンテキストサイズに合わせて）で、2380億トークンで学習されています。トークナイザーの語彙サイズは20万で、語彙サイズが18万に達すると、サブワードの学習からスーパーワードトークンの学習に移行します。

📦 インストール

このREADMEに具体的なインストール手順は記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("UW/OLMo2-11B-SuperBPE-t180k")
model = AutoModelForCausalLM.from_pretrained("UW/OLMo2-11B-SuperBPE-t180k")

tokenizer.convert_ids_to_tokens(tokenizer.encode("By the way, I am a fan of the Milky Way."))
# ['ByĠtheĠway', ',ĠIĠam', 'Ġa', 'Ġfan', 'ĠofĠthe', 'ĠMilkyĠWay', '.']

高度な使用法

このREADMEに高度な使用法のコード例は記載されていないため、このサブセクションは省略されます。

📚 ドキュメント

このREADMEに詳細な説明は記載されていないため、このセクションは省略されます。

🔧 技術詳細

このREADMEに具体的な技術詳細は記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

@misc{liu-etal-2025-superbpe,
  title={SuperBPE: Space Travel for Language Models}, 
  author={Alisa Liu and Jonathan Hayase and Valentin Hofmann and Sewoong Oh and Noah A. Smith and Yejin Choi},
  year={2025},
  eprint={2503.13423},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2503.13423}, 
}

属性	详情
モデルタイプ	11Bモデル、Olmo2 7Bアーキテクチャの拡張版
学習データ	Olmo2 7Bの事前学習データ、238Bトークン
トークナイザー	SuperBPEトークナイザー、語彙サイズ200k
コンテキスト長	3,000トークン