🚀 FlexOlmo - 灵活数据协作的新型语言模型
FlexOlmo 是一种新型的大语言模型,它开启了数据协作的全新范式。借助 FlexOlmo,数据所有者能够在不放弃数据控制权的前提下,为开源语言模型的发展贡献力量。无需直接共享原始数据,数据贡献者可以决定其数据何时在模型中生效,随时停用数据,并在数据用于推理时获得相应的认可。
🚀 快速开始
安装与使用
安装 transformers
从 此源 并运行以下代码:
from transformers import Olmoe2ForCausalLM, AutoTokenizer
import torch
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
MODEL_NAME = "allenai/FlexOlmo-7x7B-1T"
model = Olmoe2ForCausalLM.from_pretrained(MODEL_NAME).to(DEVICE)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
inputs = tokenizer("Bitcoin is", return_tensors="pt")
inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
out = model.generate(**inputs, max_length=64)
print(tokenizer.decode(out[0]))
✨ 主要特性
FlexOlmo-7x7B-1T(未进行路由训练)是一个混合专家模型,总参数达 330 亿。它结合了在公共混合数据、新闻、数学、代码、学术文本、创意写作和 Reddit 数据上独立训练的专家模型。公共混合专家模型在 1 万亿个公共数据令牌上进行训练,而其他专家模型则从公共混合专家模型分支而来,并在各自的 500 亿个数据令牌上进行训练。
📚 详细文档
模型信息链接
评估快照
模型 |
MC9 |
Gen5 |
MMLU |
MMLU Pro |
AGIEval |
BBH |
Math2 |
NewsG |
PoemG |
SciRIFF5 |
Code4 |
平均 |
先前的公共模型 |
68.7 |
58.8 |
55.9 |
26.2 |
39.9 |
35.7 |
8.2 |
76.0 |
47.8 |
48.1 |
1.1 |
42.4 |
单个模型 |
|
|
|
|
|
|
|
|
|
|
|
|
数学 |
62.5 |
44.3 |
50.6 |
24.1 |
42.0 |
45.6 |
53.1 |
42.6 |
28.0 |
50.7 |
15.8 |
41.8 |
代码 |
40.5 |
39.4 |
29.5 |
14.5 |
27.4 |
38.1 |
6.0 |
45.1 |
28.2 |
48.0 |
21.0 |
30.7 |
新闻 |
46.5 |
48.6 |
36.4 |
15.2 |
25.7 |
30.9 |
2.5 |
77.7 |
26.9 |
47.0 |
0.0 |
32.5 |
创意写作 |
42.7 |
43.9 |
31.5 |
11.6 |
23.3 |
27.6 |
1.7 |
56.9 |
67.5 |
42.4 |
0.0 |
31.7 |
学术 |
41.0 |
45.2 |
33.8 |
14.8 |
24.1 |
32.4 |
6.5 |
51.8 |
23.0 |
52.0 |
0.0 |
29.5 |
Reddit |
64.7 |
36.5 |
56.1 |
25.5 |
35.5 |
19.7 |
2.5 |
54.1 |
8.6 |
32.7 |
1.7 |
30.7 |
组合模型 |
|
|
|
|
|
|
|
|
|
|
|
|
BTM(前 2) |
68.7 |
57.7 |
59.4 |
28.3 |
43.2 |
44.3 |
23.1 |
73.6 |
54.4 |
46.3 |
24.0 |
47.6 |
🌟 FlexOlmo-7x7B-1T |
70.4 |
60.1 |
60.2 |
30.5 |
44.8 |
46.8 |
47.9 |
78.3 |
66.2 |
53.8 |
14.6 |
52.0 |
FlexOlmo-7x7B-1T-RT |
70.3 |
60.0 |
60.2 |
30.3 |
45.2 |
47.2 |
47.7 |
77.2 |
67.6 |
53.9 |
13.3 |
52.2 |
- 单个模型的评估指的是密集模型,而非 2x7B 的混合专家模型。
📄 许可证
本项目采用 Apache-2.0 许可证。
📚 引用
@misc{flexolmo,
title={FlexOlmo: Open Language Models for Flexible Data Use},
author={Weijia Shi and Akshita Bhagia and Kevin Farhat and Niklas Muennighoff and Pete Walsh and Jacob Morrison and Dustin Schwenk and Shayne Longpre and Jake Poznanski and Allyson Ettinger and Daogao Liu and Margaret Li and Mike Lewis and Wen-tau Yih and Dirk Groeneveld and Luca Soldaini and Kyle Lo and Noah A. Smith and Luke Zettlemoyer and Pang Wei Koh and Hannaneh Hajishirzi and Ali Farhadi and Sewon Min},
year={2025},
eprint={2507.00000},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://allenai.org/papers/flexolmo},
}