🚀 BiodivBERT
BiodivBERT是一個針對生物多樣性文獻的特定領域BERT大小寫敏感模型。它基於生物多樣性文獻的摘要和全文進行預訓練,並在生物多樣性領域的命名實體識別和關係提取兩個下游任務上進行了微調,為生物多樣性領域的文本處理提供了強大支持。
🚀 快速開始
你可以通過huggingface庫使用BiodivBERT,示例如下:
💻 使用示例
基礎用法
>>> from transformers import AutoTokenizer, AutoModelForMaskedLM
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForMaskedLM.from_pretrained("NoYo25/BiodivBERT")
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForTokenClassification.from_pretrained("NoYo25/BiodivBERT")
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForSequenceClassification.from_pretrained("NoYo25/BiodivBERT")
✨ 主要特性
- BiodivBERT是針對生物多樣性文獻的特定領域BERT大小寫敏感模型。
- 使用BERT base cased模型的分詞器。
- 基於生物多樣性文獻的摘要和全文進行預訓練。
- 在生物多樣性領域的命名實體識別和關係提取兩個下游任務上進行了微調。
📦 安裝指南
文檔未提供相關安裝步驟,故跳過該章節。
📚 詳細文檔
模型描述
- BiodivBERT是針對生物多樣性文獻的特定領域BERT大小寫敏感模型。
- 使用BERT base cased模型的分詞器。
- 基於生物多樣性文獻的摘要和全文進行預訓練。
- 在生物多樣性領域的命名實體識別和關係提取兩個下游任務上進行了微調。
- 更多詳情請訪問我們的GitHub倉庫。
訓練數據
- BiodivBERT基於與生物多樣性領域相關出版物的摘要和全文進行預訓練。
- 使用Elsevier和Springer的API來爬取這些數據。
- 涵蓋了1990 - 2020年期間的出版物。
評估結果
在下游任務中,BiodivBERT的表現優於作為基線方法的BERT_base_cased
、biobert_v1.1
和BiLSTM
。
評估數據集
指標
引用信息
"Abdelmageed, N., Löffler, F., & König - Ries, B. (2023). BiodivBERT: a Pre - Trained Language Model for the Biodiversity Domain."
論文鏈接
[https://ceur - ws.org/Vol - 3415/paper - 7.pdf](https://ceur - ws.org/Vol - 3415/paper - 7.pdf)
訓練數據
- 爬取關鍵詞:biodivers、genetic diversity、omic diversity、phylogenetic diversity、soil diversity、population diversity、species diversity、ecosystem diversity、functional diversity、microbial diversity
- 語料庫:
- (+Abs) 1990 - 2020年期間Springer和Elsevier的摘要
- (+Abs+Full) 1990 - 2020年期間Springer和Elsevier的摘要以及開放獲取的完整出版物文本
預訓練超參數
- MAX_LEN = 512 # BERT分詞器的默認值
- MLM_PROP = 0.15 # 數據整理器
- num_train_epochs = 3 # 許多文章中發現的最小足夠輪數,也是此處訓練器的默認值
- per_device_train_batch_size = 16 # 在舊運行中,使用512 MAX_LEN時,Ara上的V100能容納的最大值為8
- per_device_eval_batch_size = 16 # 通常與上述相同
- gradient_accumulation_steps = 4 # 這將保證最小批量大小為16 * 4 * nGPUs
🔧 技術細節
文檔未提供足夠的技術實現細節,故跳過該章節。
📄 許可證
本項目採用Apache 2.0許可證。
信息表格
屬性 |
詳情 |
模型類型 |
針對生物多樣性文獻的特定領域BERT大小寫敏感模型 |
訓練數據 |
爬取關鍵詞:biodivers、genetic diversity等;語料庫:1990 - 2020年期間Springer和Elsevier的摘要及完整出版物文本 |
評估指標 |
F1值、精確率、召回率、準確率 |
評估數據集 |
命名實體識別:COPIOUS、QEMP等;關係提取:GAD、EU - ADR等;數據集鏈接:https://doi.org/10.5281/zenodo.6554208 |
引用信息 |
Abdelmageed, N., Löffler, F., & König - Ries, B. (2023). BiodivBERT: a Pre - Trained Language Model for the Biodiversity Domain. |
論文鏈接 |
[https://ceur - ws.org/Vol - 3415/paper - 7.pdf](https://ceur - ws.org/Vol - 3415/paper - 7.pdf) |
許可證 |
Apache 2.0 |