🚀 生物醫學命名實體識別模型:bert-base-cased-biological-ner
本模型專為生物醫學領域的命名實體識別(NER)任務而設計,可精準識別和分類基因、蛋白質、疾病等實體,助力信息檢索、知識提取和數據挖掘等應用。
🚀 快速開始
代碼示例
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')
text = "Add your text here"
results = ner(text)
pd.DataFrame.from_records(results)
注意事項
⚠️ 重要提示
此模型已被基於 ModernBERT 架構微調的新版本所取代。您可以查看以下改進後的模型:
這些較新的模型在生物醫學 NER 任務中表現更優,建議在大多數應用場景中使用。
✨ 主要特性
- 專為生物醫學領域設計:針對生物醫學領域的命名實體識別任務進行了微調,能有效識別和分類基因、蛋白質、疾病等實體。
- 基於 BERT 架構:採用 BERT(Bidirectional Encoder Representations from Transformers)架構,具有強大的語言理解能力。
- 在大規模數據集上微調:在 SourceData 數據集 上進行了微調,該數據集是一個用於出版領域機器學習和人工智能的大型綜合生物醫學語料庫。
📦 安裝指南
文檔未提供具體安裝命令,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')
text = "Add your text here"
results = ner(text)
pd.DataFrame.from_records(results)
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型名稱 |
bert-base-cased-biomedical-ner |
模型架構 |
BERT(Bidirectional Encoder Representations from Transformers) |
預訓練模型 |
bert-base-cased |
微調數據集 |
SourceData 數據集 |
模型描述
bert-base-cased-biomedical-ner
是 BERT(Bidirectional Encoder Representations from Transformers)模型的微調變體,專門為生物醫學領域的命名實體識別(NER)任務而設計。該模型在 SourceData 數據集上進行了微調,這是一個用於出版領域機器學習和人工智能的大型綜合生物醫學語料庫。
命名實體識別是自然語言處理中的一項關鍵任務,在生物醫學領域尤為重要。在該領域,識別和分類基因、蛋白質、疾病等實體對於信息檢索、知識提取和數據挖掘等各種應用至關重要。
預期用途
bert-base-cased-biological-ner
模型旨在用於生物醫學領域的 NER 任務。它可用於一系列應用,包括但不限於:
- 從非結構化文本中識別和提取生物醫學實體(如基因、蛋白質、疾病)。
- 增強科學文獻的信息檢索系統。
- 支持從生物醫學文獻中提取知識和進行數據挖掘。
- 促進結構化生物醫學數據庫的創建。
標籤信息
標籤 |
描述 |
SMALL_MOLECULE |
小分子 |
GENEPROD |
基因產物(基因和蛋白質) |
SUBCELLULAR |
亞細胞成分 |
CELL_LINE |
細胞系 |
CELL_TYPE |
細胞類型 |
TISSUE |
組織和器官 |
ORGANISM |
物種 |
DISEASE |
疾病 |
EXP_ASSAY |
實驗測定 |
標籤信息來源:EMBO/SourceData 數據集 |
|
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e-05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 優化器:Adam,β1 = 0.9,β2 = 0.999,ε = 1e-08
- 學習率調度器類型:線性
- 訓練輪數:3
框架版本
- Transformers 4.35.0
- Pytorch 2.1.0+cu118
- Datasets 2.14.6
- Tokenizers 0.14.1
📄 許可證
本模型採用 Apache-2.0 許可證。