開源Universal-NER-UniNER-7B模型：減少能耗內存，精準進行命名實體識別

首頁

Universal NER UniNER 7B All Bnb 4bit Smashed

由PrunaAI開發

PrunaAI提供的壓縮版UniNER-7B-all模型，通過量化技術顯著減少內存佔用和能耗，同時保持較好的命名實體識別能力。

大型語言模型

Transformers

#命名實體識別 #4bit量化 #低內存消耗

下載量 22

發布時間 : 4/12/2024

模型概述

基於Universal-NER/UniNER-7B-all的4位量化壓縮版本，專為高效命名實體識別任務優化，適合資源受限環境部署。

模型特點

高效壓縮

採用llm-int8和4位量化技術，顯著降低模型內存佔用

環保節能

優化後的模型減少推理時的二氧化碳排放和能耗

即插即用

保持與原模型相同的接口，無需修改現有代碼即可部署

模型能力

命名實體識別

文本理解

多語言處理

使用案例

信息提取

文檔自動化處理

從法律文檔或醫療記錄中自動提取關鍵實體信息

提高文檔處理效率，減少人工標註成本

內容分析

社交媒體監控

即時識別社交媒體中的命名實體(人名、組織、地點等)

支持品牌監控和輿情分析

🚀 Pruna AI：讓AI模型更經濟、更小、更快、更環保！

Pruna AI致力於讓AI模型在成本、體積、速度和環保性上達到最優。通過獨特的技術，能夠有效壓縮模型，降低能耗，提升運行效率。

社交鏈接

項目呼籲與引導

如果你喜歡這個模型，請點贊！
點擊此處聯繫我們，告訴我們接下來要壓縮哪個模型。
點擊此處申請訪問權限，輕鬆壓縮你自己的AI模型。
點擊此處閱讀文檔以瞭解更多信息。
點擊此處加入Pruna AI的Discord社區，分享反饋、建議或獲取幫助。

🚀 快速開始

結果展示

結果展示圖

常見問題解答

壓縮是如何工作的？：模型使用llm - int8進行壓縮。
模型質量會有怎樣的變化？：與基礎模型相比，模型輸出的質量可能會有所不同。
如何評估模型效率？：這些結果是在NVIDIA A100 - PCIE - 40GB上，按照model/smash_config.json中描述的配置獲得的，並且是在硬件預熱後得到的。壓縮後的模型直接與原始基礎模型進行比較。在其他設置（如其他硬件、圖像大小、批量大小等）下，效率結果可能會有所不同。我們建議在實際用例條件下直接運行，以確定壓縮後的模型是否對你有益。
模型格式是什麼？：我們使用safetensors。
使用了什麼校準數據？：如果壓縮方法需要，我們使用WikiText作為校準數據。
Pruna Huggingface模型的命名約定是什麼？：如果壓縮後的模型在推理速度、推理內存或推理能耗方面低於原始基礎模型的90%，我們會在原始模型名稱後加上“turbo”、“tiny”或“green”。
如何壓縮我自己的模型？：你可以點擊此處申請高級訪問權限，以獲取更多壓縮方法和針對你特定用例的技術支持。
“first”指標是什麼？：提到“first”的結果是在模型首次運行後獲得的。由於cuda開銷，首次運行可能比後續運行佔用更多內存或更慢。
“Sync”和“Async”指標是什麼？：“Sync”指標是通過同步所有GPU進程並在所有進程執行完畢後停止測量獲得的。“Async”指標是在不同步所有GPU進程的情況下，在模型輸出可供CPU使用時停止測量獲得的。由於這兩種指標在不同用例中都可能相關，我們同時提供這兩種指標。我們建議在你的用例中直接測試效率提升情況。

📦 安裝指南

你可以按照以下步驟運行壓縮後的模型： 0. 檢查原始倉庫Universal - NER/UniNER - 7B - all中的依賴項是否已安裝。特別要檢查Python、CUDA和transformers的版本。

確保你已經安裝了與量化相關的包：

pip install transformers accelerate bitsandbytes>0.37.0

加載並運行模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/Universal-NER-UniNER-7B-all-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("Universal-NER/UniNER-7B-all")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])