Openelm 1 1B

appleによって開発

OpenELMはAppleが開発した効率的な言語モデルシリーズで、階層的スケーリング戦略によりパラメータ割り当てを最適化し、270Mから3Bまでの様々な規模の事前学習及び指示チューニングモデルを提供します。

大規模言語モデル

Transformers

#階層的パラメータ割り当て #効率的な言語モデル #マルチスケール事前学習

ダウンロード数 683

リリース時間 : 4/25/2025

モデル概要

OpenELMはオープンな効率的言語モデルシリーズで、階層的スケーリング戦略によるモデル性能向上に焦点を当て、様々な自然言語処理タスクに適用可能です。

モデル特徴

階層的スケーリング戦略

Transformerモデルの各層でパラメータをインテリジェントに割り当て、モデル効率を向上

オープン研究フレームワーク

完全な訓練、微調整、評価プロセスを提供し、オープン研究を促進

マルチスケール選択

270Mから3Bまでの様々なパラメータ規模のモデルバージョンを提供

モデル能力

テキスト生成

ゼロショット学習

指示追従

使用事例

自然言語処理

オープンドメインQA

様々な分野の自然言語質問に回答

ARC-cなどのベンチマークで良好な性能

テキスト補完

プロンプトに基づいて一貫性のあるテキストを生成

license: apple-amlr license_name: apple-sample-code-license license_link: LICENSE

OpenELM

Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari

OpenELM（Open Efficient Language Models）を紹介します。OpenELMは、トランスフォーマーモデルの各層内でパラメータを効率的に割り当てるための階層的なスケーリング戦略を採用しており、精度の向上を実現しています。OpenELMモデルはCoreNetライブラリを使用して事前学習されました。270M、450M、1.1B、3Bパラメータの事前学習済みモデルと指示チューニング済みモデルを公開しています。オープンな研究を促進するため、データ準備、トレーニング、ファインチューニング、評価手順を含む完全なフレームワークと、複数の事前学習済みチェックポイントおよびトレーニングログを公開しています。

事前学習データセットには、RefinedWeb、重複排除されたPILE、RedPajamaのサブセット、Dolma v1.6のサブセットが含まれており、合計約1.8兆トークンです。使用前にこれらのデータセットのライセンス契約と利用条件を確認してください。

使用方法

HuggingFace HubからロードしたOpenELMモデルを使用して出力を生成するためのサンプル関数をgenerate_openelm.pyに用意しています。

以下のコマンドを実行してモデルを試すことができます：

python generate_openelm.py --model apple/OpenELM-1_1B --hf_access_token [HF_ACCESS_TOKEN] --prompt '昔々あるところに' --generate_kwargs repetition_penalty=1.2

Hugging Faceのアクセストークンを取得するにはこちらを参照してください。

Hugging Faceのgenerate関数に追加の引数を渡すには、generate_kwargsを使用します。例えば、推論を高速化するためにlookup token speculative generationを試すには、以下のようにprompt_lookup_num_tokens引数を渡します：

python generate_openelm.py --model apple/OpenELM-1_1B --hf_access_token [HF_ACCESS_TOKEN] --prompt '昔々あるところに' --generate_kwargs repetition_penalty=1.2 prompt_lookup_num_tokens=10

または、より小さいモデルをassistant_model引数で渡してassistive modelを使用したモデル単位のspeculative generationを試すこともできます：

python generate_openelm.py --model apple/OpenELM-1_1B --hf_access_token [HF_ACCESS_TOKEN] --prompt '昔々あるところに' --generate_kwargs repetition_penalty=1.2 --assistant_model [SMALLER_MODEL]

主な結果

ゼロショット

モデルサイズ	ARC-c	ARC-e	BoolQ	HellaSwag	PIQA	SciQ	WinoGrande	平均
OpenELM-270M	26.45	45.08	53.98	46.71	69.75	84.70	53.91	54.37
OpenELM-270M-Instruct	30.55	46.68	48.56	52.07	70.78	84.40	52.72	55.11
OpenELM-450M	27.56	48.06	55.78	53.97	72.31	87.20	58.01	57.56
OpenELM-450M-Instruct	30.38	50.00	60.37	59.34	72.63	88.00	58.96	59.95
OpenELM-1_1B	32.34	55.43	63.58	64.81	75.57	90.60	61.72	63.44
OpenELM-1_1B-Instruct	37.97	52.23	70.00	71.20	75.03	89.30	62.75	65.50
OpenELM-3B	35.58	59.89	67.40	72.44	78.24	92.70	65.51	67.39
OpenELM-3B-Instruct	39.42	61.74	68.17	76.36	79.00	92.50	66.85	69.15

LLM360

モデルサイズ	ARC-c	HellaSwag	MMLU	TruthfulQA	WinoGrande	平均
OpenELM-270M	27.65	47.15	25.72	39.24	53.83	38.72
OpenELM-270M-Instruct	32.51	51.58	26.70	38.72	53.20	40.54
OpenELM-450M	30.20	53.86	26.01	40.18	57.22	41.50
OpenELM-450M-Instruct	33.53	59.31	25.41	40.48	58.33	43.41
OpenELM-1_1B	36.69	65.71	27.05	36.98	63.22	45.93
OpenELM-1_1B-Instruct	41.55	71.83	25.65	45.95	64.72	49.94
OpenELM-3B	42.24	73.28	26.76	34.98	67.25	48.90
OpenELM-3B-Instruct	47.70	76.87	24.80	38.76	67.96	51.22

OpenLLMリーダーボード

モデルサイズ	ARC-c	CrowS-Pairs	HellaSwag	MMLU	PIQA	RACE	TruthfulQA	WinoGrande	平均
OpenELM-270M	27.65	66.79	47.15	25.72	69.75	30.91	39.24	53.83	45.13
OpenELM-270M-Instruct	32.51	66.01	51.58	26.70	70.78	33.78	38.72	53.20	46.66
OpenELM-450M	30.20	68.63	53.86	26.01	72.31	33.11	40.18	57.22	47.69
OpenELM-450M-Instruct	33.53	67.44	59.31	25.41	72.63	36.84	40.48	58.33	49.25
OpenELM-1_1B	36.69	71.74	65.71	27.05	75.57	36.46	36.98	63.22	51.68
OpenELM-1_1B-Instruct	41.55	71.02	71.83	25.65	75.03	39.43	45.95	64.72	54.40
OpenELM-3B	42.24	73.29	73.28	26.76	78.24	38.76	34.98	67.25	54.35
OpenELM-3B-Instruct	47.70	72.33	76.87	24.80	79.00	38.47	38.76	67.96	55.73

詳細な結果と比較については技術レポートをご覧ください。

評価

セットアップ

以下の依存関係をインストールしてください：


# public lm-eval-harnessをインストール

harness_repo="public-lm-eval-harness"
git clone https://github.com/EleutherAI/lm-evaluation-harness ${harness_repo}
cd ${harness_repo}
# 2024年3月15日のmainブランチを使用（SHAはdc90fec）
git checkout dc90fec
pip install -e .
cd ..

# 2024年4月1日のmainブランチ（66d6242） 
pip install datasets@git+https://github.com/huggingface/datasets.git@66d6242
pip install tokenizers>=0.15.2 transformers>=4.38.2 sentencepiece>=0.2.0

OpenELMの評価


# OpenELM-1_1B
hf_model=apple/OpenELM-1_1B

# OpenELMはLLaMAトークナイザーを使用しており、add_bos_tokenをTrueにする必要があるため、このフラグが必要です
tokenizer=meta-llama/Llama-2-7b-hf
add_bos_token=True
batch_size=1

mkdir lm_eval_output

shot=0
task=arc_challenge,arc_easy,boolq,hellaswag,piqa,race,winogrande,sciq,truthfulqa_mc2
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

shot=5
task=mmlu,winogrande
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

shot=25
task=arc_challenge,crows_pairs_english
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

shot=10
task=hellaswag
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

バイアス、リスク、制限事項

OpenELMモデルの公開は、最先端の言語モデルへのアクセスを提供することで、オープンな研究コミュニティを強化し、豊かにすることを目的としています。これらのモデルは公開されているデータセットでトレーニングされており、安全性の保証なしに公開されています。そのため、ユーザーのプロンプトに対して不正確な、有害な、偏った、または不快な出力を生成する可能性があります。したがって、ユーザーと開発者は、各自の要件に合わせた徹底的な安全性テストと適切なフィルタリングメカニズムを実装することが不可欠です。

引用

私たちの研究が役立った場合は、以下の文献を引用してください：

@article{mehtaOpenELMEfficientLanguage2024,
	title = {{OpenELM}: {An} {Efficient} {Language} {Model} {Family} with {Open} {Training} and {Inference} {Framework}},
	shorttitle = {{OpenELM}},
	url = {https://arxiv.org/abs/2404.14619v1},
	language = {en},
	urldate = {2024-04-24},
	journal = {arXiv.org},
	author = {Mehta, Sachin and Sekhavat, Mohammad Hossein and Cao, Qingqing and Horton, Maxwell and Jin, Yanzi and Sun, Chenfan and Mirzadeh, Iman and Najibi, Mahyar and Belenko, Dmitry and Zatloukal, Peter and Rastegari, Mohammad},
	month = apr,
	year = {2024},
}

@inproceedings{mehta2022cvnets, 
     author = {Mehta, Sachin and Abdolhosseini, Farzad and Rastegari, Mohammad}, 
     title = {CVNets: High Performance Library for Computer Vision}, 
     year = {2022}, 
     booktitle = {Proceedings of the 30th ACM International Conference on Multimedia}, 
     series = {MM '22} 
}