🚀 Sombrero-Opus-14B-Sm5
Sombrero-Opus-14B-Sm5 基於 Qwen 2.5 14B 模態架構,旨在提高編碼效率和計算推理能力。該模型針對精簡內存使用進行了優化,避免生成不必要的文本令牌,在編碼、解釋性推理、數學問題解決和技術任務方面表現出色。它使用專門的數據集進行了微調,以提高代碼生成、結構化編程邏輯和問題解決能力。

🚀 快速開始
以下是一個使用 apply_chat_template
的代碼片段,展示瞭如何加載分詞器和模型並生成內容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "prithivMLmods/Sombrero-Opus-14B-Sm5"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Write a Python function to find the Fibonacci sequence."
messages = [
{"role": "system", "content": "You are an advanced coding assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主要特性
- 編碼優化:該模型專注於生成高質量、結構化的代碼,減少冗餘令牌,確保高效執行。
- 內存利用率提升:實現了精簡的內存優化,減少計算開銷,提高性能。
- 卓越的推理能力:在解決複雜的數學和算法問題時表現出色,能提供邏輯清晰、結構合理的解釋。
- 長上下文支持:支持長達 128K 令牌的輸入上下文,單次輸出可達 8K 令牌,非常適合詳細的編碼響應。
- 減少不必要的文本令牌:通過減少過多的文本響應,確保編碼任務的輸出更加聚焦。
📚 詳細文檔
預期用途
- 代碼生成與優化:專為開發者設計,可協助編寫、重構和優化多種編程語言的代碼。
- 算法與數學問題解決:為計算和數學問題提供精確的解釋和解決方案。
- 技術解釋與文檔編寫:為編碼概念、庫和 API 生成清晰、結構化的解釋。
- 調試輔助:幫助分析代碼片段,檢測錯誤並提供修正建議。
- 教育用途:幫助學生和學習者將複雜的編程主題分解為易於理解的部分。
- 結構化數據處理:能夠分析和生成結構化輸出,如 JSON、XML 和表格,非常適合數據科學應用。
侷限性
- 硬件要求:由於其參數規模大且支持長上下文,需要高內存的 GPU 或 TPU。
- 響應可能存在偏差:儘管設計上保持中立,但輸出仍可能反映訓練數據中存在的偏差。
- 創造性任務輸出不穩定:在講故事和非技術主題方面可能產生不同的結果。
- 缺乏即時信息感知:無法獲取訓練截止日期之後的即時事件信息。
- 長輸出中的錯誤傳播:早期響應中的小錯誤可能會影響長篇代碼輸出的整體連貫性。
- 對輸入提示敏感:響應的有效性可能取決於輸入提示的結構質量。
詳細結果可查看此處!
總結結果可查看此處!
指標 |
值 (%) |
平均 |
41.12 |
IFEval (0-Shot) |
68.52 |
BBH (3-Shot) |
50.60 |
MATH Lvl 5 (4-Shot) |
40.94 |
GPQA (0-shot) |
18.23 |
MuSR (0-shot) |
19.51 |
MMLU-PRO (5-shot) |
48.89 |
📄 許可證
本模型採用 Apache-2.0 許可證。
📦 模型信息
屬性 |
詳情 |
基礎模型 |
Qwen/Qwen2.5-14B-Instruct |
任務類型 |
文本生成 |
庫名稱 |
transformers |
標籤 |
text-generation-inference、StreamlinedMemory、code、Math |