开源Universal-NER-UniNER-7B模型：减少能耗内存，精准进行命名实体识别

首页

Universal NER UniNER 7B All Bnb 4bit Smashed

由 PrunaAI 开发

PrunaAI提供的压缩版UniNER-7B-all模型，通过量化技术显著减少内存占用和能耗，同时保持较好的命名实体识别能力。

大型语言模型

Transformers

#命名实体识别 #4bit量化 #低内存消耗

下载量 22

发布时间 : 4/12/2024

模型简介

基于Universal-NER/UniNER-7B-all的4位量化压缩版本，专为高效命名实体识别任务优化，适合资源受限环境部署。

模型特点

高效压缩

采用llm-int8和4位量化技术，显著降低模型内存占用

环保节能

优化后的模型减少推理时的二氧化碳排放和能耗

即插即用

保持与原模型相同的接口，无需修改现有代码即可部署

模型能力

命名实体识别

文本理解

多语言处理

使用案例

信息提取

文档自动化处理

从法律文档或医疗记录中自动提取关键实体信息

提高文档处理效率，减少人工标注成本

内容分析

社交媒体监控

实时识别社交媒体中的命名实体(人名、组织、地点等)

支持品牌监控和舆情分析

🚀 Pruna AI：让AI模型更经济、更小、更快、更环保！

Pruna AI致力于让AI模型在成本、体积、速度和环保性上达到最优。通过独特的技术，能够有效压缩模型，降低能耗，提升运行效率。

社交链接

项目呼吁与引导

如果你喜欢这个模型，请点赞！
点击此处联系我们，告诉我们接下来要压缩哪个模型。
点击此处申请访问权限，轻松压缩你自己的AI模型。
点击此处阅读文档以了解更多信息。
点击此处加入Pruna AI的Discord社区，分享反馈、建议或获取帮助。

🚀 快速开始

结果展示

结果展示图

常见问题解答

压缩是如何工作的？：模型使用llm - int8进行压缩。
模型质量会有怎样的变化？：与基础模型相比，模型输出的质量可能会有所不同。
如何评估模型效率？：这些结果是在NVIDIA A100 - PCIE - 40GB上，按照model/smash_config.json中描述的配置获得的，并且是在硬件预热后得到的。压缩后的模型直接与原始基础模型进行比较。在其他设置（如其他硬件、图像大小、批量大小等）下，效率结果可能会有所不同。我们建议在实际用例条件下直接运行，以确定压缩后的模型是否对你有益。
模型格式是什么？：我们使用safetensors。
使用了什么校准数据？：如果压缩方法需要，我们使用WikiText作为校准数据。
Pruna Huggingface模型的命名约定是什么？：如果压缩后的模型在推理速度、推理内存或推理能耗方面低于原始基础模型的90%，我们会在原始模型名称后加上“turbo”、“tiny”或“green”。
如何压缩我自己的模型？：你可以点击此处申请高级访问权限，以获取更多压缩方法和针对你特定用例的技术支持。
“first”指标是什么？：提到“first”的结果是在模型首次运行后获得的。由于cuda开销，首次运行可能比后续运行占用更多内存或更慢。
“Sync”和“Async”指标是什么？：“Sync”指标是通过同步所有GPU进程并在所有进程执行完毕后停止测量获得的。“Async”指标是在不同步所有GPU进程的情况下，在模型输出可供CPU使用时停止测量获得的。由于这两种指标在不同用例中都可能相关，我们同时提供这两种指标。我们建议在你的用例中直接测试效率提升情况。

📦 安装指南

你可以按照以下步骤运行压缩后的模型： 0. 检查原始仓库Universal - NER/UniNER - 7B - all中的依赖项是否已安装。特别要检查Python、CUDA和transformers的版本。

确保你已经安装了与量化相关的包：

pip install transformers accelerate bitsandbytes>0.37.0

加载并运行模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/Universal-NER-UniNER-7B-all-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("Universal-NER/UniNER-7B-all")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])