🚀 ERNIE-4.5-0.3B-PT GGUF模型
ERNIE-4.5-0.3B-PT GGUF模型是一個文本生成模型,基於ERNIE 4.5技術,能夠高效地處理文本生成任務,為用戶提供優質的文本內容。
🚀 快速開始
使用transformers
庫
注意:在使用該模型之前,請確保你已經安裝了transformers
庫(版本4.50.0或更高)。
以下代碼展示瞭如何使用該模型根據給定輸入生成內容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "baidu/ERNIE-4.5-0.3B-PT"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], add_special_tokens=False, return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs.input_ids,
max_new_tokens=1024
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
generate_text = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
print("generate_text:", generate_text)
vLLM推理
可使用 vllm 的github庫。採用僅Python的 構建方式。
vllm serve baidu/ERNIE-4.5-0.3B-PT --trust-remote-code
✨ 主要特性
ERNIE 4.5模型,尤其是基於MoE的A47B和A3B系列,具備以下關鍵技術創新所支撐的高級能力:
- 多模態異構MoE預訓練:模型在文本和視覺模態上進行聯合訓練,以更好地捕捉多模態信息的細微差別,提升文本理解與生成、圖像理解和跨模態推理等任務的性能。為避免一種模態阻礙另一種模態的學習,設計了異構MoE結構,融入模態隔離路由,並採用路由正交損失和多模態令牌平衡損失。這些架構選擇確保兩種模態都能得到有效表示,實現訓練過程中的相互強化。
- 高效擴展基礎設施:提出了一種新穎的異構混合並行和分層負載均衡策略,用於ERNIE 4.5模型的高效訓練。通過使用節點內專家並行、內存高效的流水線調度、FP8混合精度訓練和細粒度重計算方法,實現了顯著的預訓練吞吐量。在推理方面,提出了多專家並行協作方法和卷積代碼量化算法,實現4位/2位無損量化。此外,引入具有動態角色切換的PD分離技術,有效利用資源,提升ERNIE 4.5 MoE模型的推理性能。基於 PaddlePaddle 構建,ERNIE 4.5可在廣泛的硬件平臺上實現高性能推理。
- 特定模態後訓練:為滿足現實應用的多樣化需求,對預訓練模型的變體進行了特定模態的微調。大語言模型(LLMs)針對通用語言理解和生成進行了優化。視覺語言模型(VLMs)專注於視覺語言理解,支持思考和非思考兩種模式。每個模型在訓練後採用了監督微調(SFT)、直接偏好優化(DPO) 或一種名為統一偏好優化(UPO) 的改進強化學習方法。
📚 詳細文檔
模型概述
ERNIE-4.5-0.3B是一個文本密集型後訓練模型。以下是模型的配置詳情:
屬性 |
詳情 |
模態 |
文本 |
訓練階段 |
後訓練 |
參數數量 |
0.36B |
層數 |
18 |
頭數(Q/KV) |
16 / 2 |
上下文長度 |
131072 |
模型生成細節
該模型使用 llama.cpp 在提交版本 b9c3eefd
時生成。
選擇合適的GGUF模型格式
點擊此處 獲取選擇合適GGUF模型格式的信息。
模型測試相關
如果您發現這些模型有用,可以幫助測試 基於AI的量子網絡監控助手 並進行 量子就緒安全檢查:
👉 量子網絡監控
量子網絡監控服務的完整開源代碼可在github倉庫(名稱中包含NetworkMonitor的倉庫)中找到:量子網絡監控源代碼。如果您想自己對模型進行量化,也可以找到相關代碼 GGUFModelBuilder
測試說明
- 選擇AI助手類型:
TurboLLM
(GPT-4.1-mini)
HugLLM
(Hugginface開源模型)
TestLLM
(僅支持CPU的實驗性模型)
測試內容
正在探索用於AI網絡監控的小型開源模型的極限,具體包括:
- 針對即時網絡服務進行 函數調用
- 探究模型在處理以下任務時可達到的最小規模:
- 自動進行 Nmap安全掃描
- 量子就緒檢查
- 網絡監控任務
各助手特點
- 🟡 TestLLM – 當前的實驗性模型(在Hugging Face Docker空間的2個CPU線程上運行llama.cpp):
- ✅ 零配置設置
- ⏳ 加載時間30秒(推理速度慢,但 無API成本)。由於成本較低,無令牌限制。
- 🔧 尋求幫助! 如果您對邊緣設備AI感興趣,歡迎合作!
- 🟢 TurboLLM – 使用 gpt-4.1-mini:
- 性能出色,但不幸的是OpenAI按令牌收費,因此令牌使用受限。
- 創建自定義命令處理器,在量子網絡監控代理上運行.NET代碼
- 即時網絡診斷和監控
- 安全審計
- 滲透測試 (Nmap/Metasploit)
- 🔵 HugLLM – 最新的開源模型:
- 🌐 在Hugging Face推理API上運行。使用Novita託管的最新模型時表現良好。
測試命令示例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注意,您需要安裝 量子網絡監控代理 才能在其上運行.NET代碼。這是一個非常靈活且強大的功能,請謹慎使用!
📄 許可證
ERNIE 4.5模型遵循Apache License 2.0許可協議。該許可證允許商業使用,但需遵守其條款和條件。版權所有 (c) 2025 百度公司。保留所有權利。
引用
如果您發現ERNIE 4.5有用或希望在項目中使用它,請引用我們的技術報告:
@misc{ernie2025technicalreport,
title={ERNIE 4.5 Technical Report},
author={Baidu ERNIE Team},
year={2025},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={}
}
最後說明
創建這些模型文件、運行量子網絡監控服務以及支付Novita和OpenAI的推理費用,所有這些費用均由個人承擔。模型創建和量子網絡監控項目背後的所有代碼都是 開源的。您可以自由使用任何有幫助的內容。
如果您認可這些工作,請考慮 請我喝杯咖啡 ☕。您的支持有助於支付服務成本,並提高所有人的令牌使用限制。
同時,也歡迎工作機會或贊助。
感謝您的支持! 😊