🚀 LogiLlama
LogiLlama 是由 Goppa AI 開發的一款微調語言模型。它基於 LLaMA 的 10 億參數基礎模型構建,通過注入知識和邏輯推理能力得到了增強。我們的目標是讓小模型更智能,在保持低內存佔用和高能效以適用於設備端應用的同時,提升推理和解決問題的能力。
🚀 快速開始
LogiLlama 是一款經過微調的語言模型,基於 10 億參數的基礎模型,通過先進的邏輯推理技術進行了優化。以下是使用 Hugging Face Transformers 庫調用 LogiLlama 的示例代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("goppa-ai/Goppa-LogiLlama", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("goppa-ai/Goppa-LogiLlama", trust_remote_code=True)
model.to('cuda')
text = "When faced with a complex problem, what should one do?"
input_ids = tokenizer(text, return_tensors="pt").to('cuda').input_ids
outputs = model.generate(
input_ids,
max_length=2500,
temperature=0.6,
top_p=0.9,
repetition_penalty=1.2,
pad_token_id=tokenizer.eos_token_id
)
print(tokenizer.batch_decode(outputs[:, input_ids.shape[1]:-1])[0].strip())
✨ 主要特性
儘管近期語言模型的發展趨勢傾向於增加參數規模,但 LogiLlama 證明了“少即是多”的理念。通過對 10 億參數的基礎模型進行微調,並運用先進的邏輯推理技術,LogiLlama 具備以下特性:
- 增強推理能力:提升邏輯思維和知識整合能力,以提供更準確、更具上下文感知的響應。
- 高效性:專為設備端處理而設計,具有低內存和低能耗的特點。
- 透明度:我們的訓練過程和配置文件完全開源,體現了我們對透明和可復現研究的承諾。
📚 詳細文檔
模型描述
屬性 |
詳情 |
模型類型 |
基於 10 億參數的 LLaMA 基礎模型微調的小型語言模型(SLM) |
架構 |
隱藏層大小:2048;隱藏層數量:16;注意力頭數:32;中間層大小:8192;特殊配置:採用自定義的 ROPE 縮放(rope_type: "llama3") |
分詞 |
使用自定義分詞器,包含大量特殊標記(在 special_tokens_map.json 和 tokenizer_config.json 中定義) |
語言 |
英語 |
許可證 |
Llama 3 社區許可協議 |
配置文件
模型倉庫包含幾個關鍵的配置文件,以確保 LogiLlama 在 Hugging Face 生態系統中無縫運行:
- config.json:包含模型架構設置,如隱藏層大小、層數、注意力頭數和其他超參數。
- generation_config.json:定義生成參數,如溫度、top-p 採樣和序列結束標記。
- special_tokens_map.json:映射分詞過程中使用的特殊標記(如文本開始、文本結束、填充標記)。
- tokenizer_config.json:提供分詞器的元數據和設置,確保與模型的詞彙表和特殊標記一致。
訓練細節
LogiLlama 通過向 10 億參數的 LLaMA 基礎模型中注入邏輯推理和特定領域知識進行微調。通過精心策劃訓練數據並採用專門技術,我們提升了模型處理推理任務的能力,而無需顯著增加其規模。這個項目體現了我們致力於推進小型高效模型的發展,同時不犧牲性能。
推理與部署
- 模型大小:10 億參數
- 張量類型:float32(F32)
- 部署:針對設備端推理和資源受限環境進行了優化。目前支持本地部署,敬請期待託管推理解決方案的更新。
📄 許可證
LogiLlama 採用 MIT 許可證 發佈。
📚 引用
如果您在研究中使用了 LogiLlama,請引用以下內容:
@misc{goppa2025logillama,
title={LogiLlama: Injecting Logical Reasoning into Small Language Models},
author={Goppa AI},
year={2025},
note={https://github.com/GoppaAI/LogiLlama}
}
Goppa AI 致力於突破語言模型在效率和智能方面的界限。LogiLlama 是我們邁向創建小型模型的第一步,這些模型不僅資源友好,還具備處理複雜推理任務的智能。
祝您創新愉快!