🚀 Foundation-Sec-8B - 模型卡片
Foundation-Sec-8B是一款专为网络安全应用定制的开源权重、80亿参数的基础语言模型。它基于特定的网络安全文本语料对Llama-3.1-8B模型进行持续预训练,使其能够理解多个安全领域的概念、术语和实践。该模型可用于构建本地部署的安全工具,减少对云服务的依赖,同时在安全相关任务中保持高性能。
属性 |
详情 |
模型类型 |
自回归语言模型,采用优化的Transformer架构(Meta Llama-3.1-8B主干) |
训练数据 |
约51亿个网络安全特定数据的标记,由思科的Foundation AI团队内部整理,数据截止日期为2025年4月10日 |
模型开发者 |
Foundation AI(思科)的Amin Karbasi及其团队 |
技术报告 |
https://arxiv.org/abs/2504.21039 |
模型发布日期 |
2025年4月28日 |
支持语言 |
英语 |
训练目标 |
在网络安全特定语料上进行持续预训练 |
许可证 |
Apache 2.0 |
🚀 快速开始
使用以下代码开始使用该模型:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("fdtn-ai/Foundation-Sec-8B")
model = AutoModelForCausalLM.from_pretrained("fdtn-ai/Foundation-Sec-8B")
prompt="""CVE-2021-44228是Apache Log4j2中通过不安全的JNDI查找(“Log4Shell”)导致的远程代码执行漏洞。对应的CWE是CWE-502。
CVE-2017-0144是Microsoft的SMBv1服务器(“EternalBlue”)中由于缓冲区溢出导致的远程代码执行漏洞。对应的CWE是CWE-119。
CVE-2014-0160是OpenSSL的心跳扩展(“Heartbleed”)中导致越界读取的信息泄露漏洞。对应的CWE是CWE-125。
CVE-2017-5638是Apache Struts 2的Jakarta Multipart解析器中由于对Content-Type头的输入验证不当导致的远程代码执行问题。对应的CWE是CWE-20。
CVE-2019-0708是Microsoft的远程桌面服务(“BlueKeep”)中由于使用后释放导致的远程代码执行漏洞。对应的CWE是CWE-416。
CVE-2015-10011是关于OpenDNS OpenResolve日志输出中和不当的漏洞。对应的CWE是"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
inputs["input_ids"],
max_new_tokens=3,
do_sample=True,
temperature=0.1,
top_p=0.9,
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
response = response.replace(prompt, "").strip()
print(response)
✨ 主要特性
- 领域适配:通过在网络安全特定语料上的持续预训练,能够理解多个安全领域的概念、术语和实践。
- 本地部署:支持本地部署,减少对云服务的依赖,同时在安全相关任务中保持高性能。
- 多用途:可用于威胁检测、漏洞评估、安全自动化和攻击模拟等多种安全应用。
📚 详细文档
预期用途
预期用例
Foundation-Sec-8B专为安全从业者、研究人员和开发人员设计,用于构建人工智能驱动的安全工作流程和应用程序。它针对以下三个核心用例类别进行了优化:
- SOC加速:自动化分类、总结、案例记录生成和证据收集。
- 主动威胁防御:模拟攻击、确定漏洞优先级、映射TTPs和建模攻击者行为。
- 工程支持:提供安全协助、验证配置、评估合规性证据和改善安全态势。
该模型适用于优先考虑数据安全、法规合规性和运营控制的本地部署环境。
下游应用
Foundation-Sec-8B可直接用于与安全相关的语言任务,并作为在各种网络安全工作流程中进行微调的强大起点。示例下游应用包括:
- 总结:总结检测手册和事件报告,将分散的分析师笔记整合为结构化的案例总结。
- 分类:将威胁映射到MITRE ATT&CK技术,根据上下文风险对漏洞进行优先级排序,对与安全相关的电子邮件和泄露的文件内容进行分类。
- 命名实体识别:从文档中提取合规性证据,从技术手册中构建网络行为配置文件。
- 问答:协助SOC分析师进行警报分类和调查,响应云安全和软件合规性查询。
- 推理和文本生成:生成红队攻击计划和威胁模型,预测攻击者在主动调查中的下一步行动,用上下文洞察丰富漏洞扫描结果。
非预期用途
以下使用情况不在预期范围内,既不推荐也不是预期用例:
- 生成有害内容:模型不应被用于生成恶意软件或其他恶意代码、创建网络钓鱼内容或社会工程脚本、制定针对特定组织的攻击计划,或在没有合法安全研究目的的情况下设计漏洞利用技术。
- 无人工监督的关键安全决策:模型不应被用于无人工审核的自主安全决策、无专家监督的关键基础设施保护、无人工验证的安全合规性最终确定,或无测试的自主漏洞修复。
- 法律或医疗建议:模型不具备提供有关安全法规、合规性要求或知识产权纠纷的法律建议,或有关安全问题的法律建议(涉及提供法律建议所需的法规、先例或判例法),或有关安全事件对健康影响的医疗建议的资格。
- 非安全用例:模型专门针对网络安全进行了优化,在一般任务上的表现可能不如为更广泛应用而训练的模型。
- 违反法律法规:任何违反适用法律法规的使用。
训练与评估
训练数据
Foundation-sec-8B在约51亿个网络安全特定数据的标记上进行了预训练,这些数据由思科的Foundation AI团队内部整理。数据集是从网络上的公共来源精心收集的。预训练语料库是通过一个多阶段的管道构建的,包括大规模网络爬取、相关性过滤、去重和质量过滤。数据截止日期为2025年4月10日。更多详细方法可在技术报告中找到。
训练设置
Foundation-sec-8B基于Llama 3.1 8B架构。预训练在思科Foundation AI的内部计算集群上进行。关键训练细节如下:
- 持续预训练:针对网络安全进行专业化训练。
- 4096标记序列长度。
- 优化器:AdamW。
更多详细方法可在技术报告中找到。
评估
Foundation-sec-8B在网络安全和一般推理任务上进行了基准测试,使用标准化的5次提示设置(温度 = 0.3)。
基准测试 |
Foundation-sec-8B |
Llama 3.1 8B |
Llama 3.1 70B |
CTI-MCQA |
67.39 |
64.14 |
68.23 |
CTI-RCM |
75.26 |
66.43 |
72.66 |
基准测试概述:
- CTI-MCQA:2500道多项选择题,测试跨MITRE ATT&CK、NIST、GDPR等框架的网络安全知识以及威胁情报最佳实践。
- CTI-RCM:900多个漏洞根本原因映射示例,将CVEs与CWE类别关联起来,评估对安全弱点的深入理解。
关键亮点:
- 在特定安全基准测试中比Llama-3.1-8B高出3至9分。
- 在网络威胁情报任务上的表现与Llama-3.1-70B相当或更好。
- 尽管针对网络安全进行了专业化训练,但在一般语言推理(MMLU)方面的下降幅度最小(约2%)。
有关完整的基准测试细节和评估方法,请参考技术报告。
局限性
Foundation-Sec-8B存在一些用户应注意的局限性:
- 特定领域知识限制:可能不熟悉其训练截止日期之后发布的最新漏洞、利用方法、新型攻击向量或安全技术,对专业或专有安全系统或工具的了解可能有限。
- 潜在偏差:模型可能反映安全文献和文档中存在的偏差,可能基于已知攻击模式进行训练,难以识别新型攻击向量,安全实践和建议可能偏向某些技术生态系统,并且可能存在地理和文化方面的安全方法偏差。
- 安全风险:模型无法验证用户的身份或意图,对抗性提示技术可能会绕过安全机制,若未实施适当的提示护栏,模型可能会无意中提供可能被滥用的信息。
- 上下文盲目性:模型可能难以理解系统、用户和数据之间的复杂相互关系,以提供准确的上下文。
- 技术限制:性能因提示中安全概念的描述方式而异,可能无法在没有明确解释的情况下完全理解复杂的多步骤安全场景,无法访问外部系统或主动扫描环境,无法独立验证其输出的事实准确性。
- 伦理考虑:安全知识的两用性质需要仔细考虑适当的用例。
建议
为解决Foundation-Sec-8B的局限性,我们建议:
- 人工监督:在实施模型输出之前,始终让合格的安全专业人员进行审查,将模型用作辅助工具,而不是替代专家的人工判断,在安全关键应用中实施人工参与的方法。
- 系统设计保障:为使用此模型构建的应用程序实施额外的验证层,考虑限制模型执行潜在有害操作(过度自主性)能力的架构约束,在具有适当访问控制的环境中部署模型。
- 提示工程:使用精心设计的提示,鼓励符合道德的安全实践,包括有关负责任披露和道德黑客原则的明确说明,构建交互以最大限度地减少无意中产生有害输出的风险。
- 知识补充:用最新的安全信息源和数据库补充模型,为当前的威胁情报源实施检索增强生成。
- 使用政策:为使用此模型的应用程序制定并执行明确的可接受使用政策,对高风险应用程序实施监控和审计,为最终用户创建有关模型局限性的文档。
🔧 技术细节
训练数据
Foundation-sec-8B在约51亿个网络安全特定数据的标记上进行了预训练,这些数据由思科的Foundation AI团队内部整理。数据集是从网络上的公共来源精心收集的。预训练语料库是通过一个多阶段的管道构建的,包括大规模网络爬取、相关性过滤、去重和质量过滤。数据截止日期为2025年4月10日。更多详细方法可在技术报告中找到。
训练设置
Foundation-sec-8B基于Llama 3.1 8B架构。预训练在思科Foundation AI的内部计算集群上进行。关键训练细节如下:
- 持续预训练:针对网络安全进行专业化训练。
- 4096标记序列长度。
- 优化器:AdamW。
评估
Foundation-sec-8B在网络安全和一般推理任务上进行了基准测试,使用标准化的5次提示设置(温度 = 0.3)。
基准测试 |
Foundation-sec-8B |
Llama 3.1 8B |
Llama 3.1 70B |
CTI-MCQA |
67.39 |
64.14 |
68.23 |
CTI-RCM |
75.26 |
66.43 |
72.66 |
基准测试概述:
- CTI-MCQA:2500道多项选择题,测试跨MITRE ATT&CK、NIST、GDPR等框架的网络安全知识以及威胁情报最佳实践。
- CTI-RCM:900多个漏洞根本原因映射示例,将CVEs与CWE类别关联起来,评估对安全弱点的深入理解。
关键亮点:
- 在特定安全基准测试中比Llama-3.1-8B高出3至9分。
- 在网络威胁情报任务上的表现与Llama-3.1-70B相当或更好。
- 尽管针对网络安全进行了专业化训练,但在一般语言推理(MMLU)方面的下降幅度最小(约2%)。
有关完整的基准测试细节和评估方法,请参考技术报告。
📄 许可证
本模型采用Apache 2.0许可证。