🚀 Llama-3.1-Storm-8B-GGUF
このモデルは、Llama-3.1-Storm-8B のGGUF量子化バージョンで、llama.cpp で使用することができます。BF16モデルはこちらにあります。
🚀 クイックスタート
このモデルは、Meta AIの Llama-3.1-8B-Instruct や Hermes-3-Llama-3.1-8B モデルを上回る性能を持ち、多様なベンチマークで優れた結果を示します。

Authors: Ashvini Kumar Jindal、Pawan Kumar Rajpoot、Ankur Parikh、Akshita Sukhlecha
Hugging Face Announcement Blog: https://huggingface.co/blog/akjindal53244/llama31-storm8b
Ollama: ollama run ajindal/llama3.1-storm:8b
✨ 主な機能
モデルの構築手法
- Self-Curation:約280万のオープンソースの例から、約100万の高品質な例を選択するために2つの自動選別手法を適用しました。選別基準は、教育的価値と難易度に焦点を当て、大規模モデル(例:70B、405B)ではなく、同じSLMを注釈付けに使用しました。
- Targeted fine-tuning:Spectrum ベースのターゲットファインチューニングをLlama-3.1-8B-Instructモデルに対して行いました。Spectrum手法は、信号対雑音比(SNR)に基づいてレイヤーモジュールを選択的にターゲットにし、残りのモジュールを凍結することでトレーニングを加速します。この研究では、50%のレイヤーを凍結しました。
- Model Merging:SLERP 手法を使用して、ファインチューニングしたモデルと Llama-Spark モデルをマージしました。このマージ手法は、両方の親モデルの特性を滑らかに補間したブレンドモデルを生成し、結果として得られるモデルが両方の親モデルの本質を捉えることを保証します。Llama-3.1-Storm-8B は、10の多様なベンチマークでLlama-3.1-8B-Instructを改善しています。これらのベンチマークは、命令追従、知識駆動型QA、推論、真実性のある回答生成、関数呼び出しなどの分野をカバーしています。
モデルの性能比較

Llama-3.1-Storm-8B モデルは、Instruction-following (IFEval)、Knowledge-driven QA benchmarks (GPQA、MMLU-Pro)、Reasoning (ARC-C、MuSR、BBH)、Reduced Hallucinations (TruthfulQA)、Function-Calling (BFCL) などの様々なベンチマークでMeta-Llama-3.1-8B-Instructを改善しています。この改善は、限られた計算資源で作業するAI開発者や愛好者にとって特に重要です。
また、最近公開された Hermes-3-Llama-3.1-8B モデルともベンチマークを行いました。上の図の右のサブプロットに示すように、Llama-3.1-Storm-8Bは9つのベンチマークのうち7つでHermes-3-Llama-3.1-8Bを上回っています。ただし、Hermes-3-Llama-3.1-8BはMuSRベンチマークでLlama-3.1-Storm-8Bを上回り、両モデルはBBHベンチマークで同等の性能を示しています。
モデルの強み
Llama-3.1-Storm-8Bは、多様なアプリケーションに役立つ強力な汎用モデルです。AIコミュニティに Llama-3.1-Storm-8B を探索していただき、様々なプロジェクトやアプリケーションでどのように活用されるかを楽しみにしています。
モデルの強み |
関連するベンチマーク |
Improved Instruction Following |
IFEval Strict (+3.93%) |
Enhanced Knowledge Driven Question Answering |
GPQA (+7.21%)、MMLU-Pro (+0.55%)、AGIEval (+3.77%) |
Better Reasoning |
ARC-C (+3.92%)、MuSR (+2.77%)、BBH (+1.67%)、AGIEval (+3.77%) |
Superior Agentic Capabilities |
BFCL: Overall Acc (+7.92%)、BFCL: AST Summary (+12.32%) |
Reduced Hallucinations |
TruthfulQA (+9%) |
注: すべての改善は、Meta-Llama-3.1-8B-Instructに対する絶対的な向上率です。
モデルの種類
BF16
: Llama-3.1-Storm-8B
FP8
: Llama-3.1-Storm-8B-FP8-Dynamic
GGUF
: Llama-3.1-Storm-8B-GGUF
- Ollama:
ollama run ajindal/llama3.1-storm:8b
📦 インストール
pip install llama-cpp-python
💻 使用例
基本的な使用法
from huggingface_hub import hf_hub_download
from llama_cpp import Llama
model_name = "akjindal53244/Llama-3.1-Storm-8B-GGUF"
model_file = "Llama-3.1-Storm-8B.Q8_0.gguf"
model_path = hf_hub_download(model_name, filename=model_file)
llm = Llama(
model_path=model_path,
n_ctx=16000,
n_threads=32,
n_gpu_layers=0
)
generation_kwargs = {
"max_tokens":200,
"stop":["<|eot_id|>"],
"echo":False,
"top_k":1
}
prompt = "What is 2+2?"
res = llm(prompt, **generation_kwargs)
print(res["choices"][0]["text"])
高度な使用法
Ollama を使用した関数呼び出しの例
import ollama
tools = [{
'type': 'function',
'function': {
'name': 'get_current_weather',
'description': 'Get the current weather for a city',
'parameters': {
'type': 'object',
'properties': {
'city': {
'type': 'string',
'description': 'The name of the city',
},
},
'required': ['city'],
},
},
},
{
'type': 'function',
'function': {
'name': 'get_places_to_vist',
'description': 'Get places to visit in a city',
'parameters': {
'type': 'object',
'properties': {
'city': {
'type': 'string',
'description': 'The name of the city',
},
},
'required': ['city'],
},
},
},
]
response = ollama.chat(
model='ajindal/llama3.1-storm:8b',
messages=[
{'role': 'system', 'content': 'Do not answer to nay vulgar questions.'},
{'role': 'user', 'content': 'What is the weather in Toronto and San Francisco?'}
],
tools=tools
)
print(response['message'])
🔧 技術詳細
アライメントに関する注意事項
Llama-3.1-Storm-8B は明示的なモデルアライメントプロセスを経ていませんが、Meta-Llama-3.1-8B-Instructモデルから継承されたいくつかのアライメント特性を保持している可能性があります。
引用方法
@misc {ashvini_kumar_jindal_2024,
author = { {Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh, Akshita Sukhlecha} },
title = { Llama-3.1-Storm-8B },
year = 2024,
url = { https://huggingface.co/akjindal53244/Llama-3.1-Storm-8B },
doi = { 10.57967/hf/2902 },
publisher = { Hugging Face }
}
支援のお願い
3人のチームメンバーが3つの異なるタイムゾーンにまたがって活動し、NeurIPS LLM Efficiency Challenge 2023 や金融およびアラビア語LLM分野の他の4つのコンペティションに勝利しています。また、SOTA数学的推論モデル も公開しています。
Llama-3.1-Storm-8B は、オープンソースコミュニティに対するこれまでで最も価値のある貢献です。効率的な汎用LLMの開発に取り組んでいます。このイニシアチブを前進させるために、計算資源と革新的な協力者の両方を求めています。
📄 ライセンス
このモデルは、llama3.1ライセンスの下で提供されています。