开源finetuned-bert钓鱼网站分类模型 - 文本输入实时预测网站安全状况

首页

Finetuned Bert Phishing Site Classification

由 shogun-the-great 开发

该模型是基于BERT-Base-Uncased微调的钓鱼网站分类模型，可根据文本输入预测网站属于'安全'或'不安全'类别。

文本分类

Transformers

#钓鱼检测 #BERT微调 #网站安全

下载量 21

发布时间 : 1/15/2025

模型简介

一个二分类模型，专门用于检测钓鱼网站文本内容，区分安全和不安全网站。

模型特点

基于BERT微调

利用BERT强大的语言理解能力进行钓鱼网站检测

二分类能力

可将网站内容准确分类为安全或不安全两类

英语文本支持

专门针对英语网站内容优化

模型能力

文本分类

钓鱼检测

网站安全评估

使用案例

网络安全

浏览器扩展集成

集成到浏览器扩展中实现实时网站分类

帮助用户识别潜在钓鱼网站

文本数据分析

分析文本数据中的钓鱼特征指标

识别可疑网站内容模式

🚀 用于钓鱼网站分类的微调BERT-Base-Uncased模型卡片

本模型基于BERT架构，针对钓鱼网站分类任务进行了微调。它能够根据文本输入，准确判断网站是否安全，为网络安全提供有力支持。

🚀 快速开始

你可以直接从Hugging Face Hub加载微调后的模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 从Hugging Face Hub加载分词器和模型
model_name = "shogun-the-great/finetuned-bert-phishing-site-classification"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 示例用法
text = "Enter your login credentials to claim a free reward!"
inputs = tokenizer(text, return_tensors="pt", truncation=True)
outputs = model(**inputs)

# 获取预测标签
logits = outputs.logits
prediction = logits.argmax(dim=-1).item()
print("Prediction:", "Not Safe" if prediction == 1 else "Safe")

✨ 主要特性

精准分类：能够准确地将网站分为“安全”和“不安全”两类，有效识别钓鱼网站。
易于集成：可与浏览器扩展集成，实现实时网站分类。
可扩展性：用户可以针对特定的二分类任务或相似领域的数据集进一步微调模型。

📦 安装指南

暂未提及具体安装命令，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 从Hugging Face Hub加载分词器和模型
model_name = "shogun-the-great/finetuned-bert-phishing-site-classification"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 示例用法
text = "Enter your login credentials to claim a free reward!"
inputs = tokenizer(text, return_tensors="pt", truncation=True)
outputs = model(**inputs)

# 获取预测标签
logits = outputs.logits
prediction = logits.argmax(dim=-1).item()
print("Prediction:", "Not Safe" if prediction == 1 else "Safe")

高级用法

# 可根据实际需求，将该模型与其他安全措施结合使用，以实现更强大的钓鱼检测功能。
# 例如，结合浏览器扩展，在用户访问网站时实时进行分类。
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "shogun-the-great/finetuned-bert-phishing-site-classification"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 模拟浏览器扩展获取的实时文本
real_time_text = get_real_time_text_from_browser()  

inputs = tokenizer(real_time_text, return_tensors="pt", truncation=True)
outputs = model(**inputs)

logits = outputs.logits
prediction = logits.argmax(dim=-1).item()
print("Real-time Prediction:", "Not Safe" if prediction == 1 else "Safe")