🚀 BiodivBERT
BiodivBERT是一个针对生物多样性文献的特定领域BERT大小写敏感模型。它基于生物多样性文献的摘要和全文进行预训练,并在生物多样性领域的命名实体识别和关系提取两个下游任务上进行了微调,为生物多样性领域的文本处理提供了强大支持。
🚀 快速开始
你可以通过huggingface库使用BiodivBERT,示例如下:
💻 使用示例
基础用法
>>> from transformers import AutoTokenizer, AutoModelForMaskedLM
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForMaskedLM.from_pretrained("NoYo25/BiodivBERT")
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForTokenClassification.from_pretrained("NoYo25/BiodivBERT")
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForSequenceClassification.from_pretrained("NoYo25/BiodivBERT")
✨ 主要特性
- BiodivBERT是针对生物多样性文献的特定领域BERT大小写敏感模型。
- 使用BERT base cased模型的分词器。
- 基于生物多样性文献的摘要和全文进行预训练。
- 在生物多样性领域的命名实体识别和关系提取两个下游任务上进行了微调。
📦 安装指南
文档未提供相关安装步骤,故跳过该章节。
📚 详细文档
模型描述
- BiodivBERT是针对生物多样性文献的特定领域BERT大小写敏感模型。
- 使用BERT base cased模型的分词器。
- 基于生物多样性文献的摘要和全文进行预训练。
- 在生物多样性领域的命名实体识别和关系提取两个下游任务上进行了微调。
- 更多详情请访问我们的GitHub仓库。
训练数据
- BiodivBERT基于与生物多样性领域相关出版物的摘要和全文进行预训练。
- 使用Elsevier和Springer的API来爬取这些数据。
- 涵盖了1990 - 2020年期间的出版物。
评估结果
在下游任务中,BiodivBERT的表现优于作为基线方法的BERT_base_cased
、biobert_v1.1
和BiLSTM
。
评估数据集
指标
引用信息
"Abdelmageed, N., Löffler, F., & König - Ries, B. (2023). BiodivBERT: a Pre - Trained Language Model for the Biodiversity Domain."
论文链接
[https://ceur - ws.org/Vol - 3415/paper - 7.pdf](https://ceur - ws.org/Vol - 3415/paper - 7.pdf)
训练数据
- 爬取关键词:biodivers、genetic diversity、omic diversity、phylogenetic diversity、soil diversity、population diversity、species diversity、ecosystem diversity、functional diversity、microbial diversity
- 语料库:
- (+Abs) 1990 - 2020年期间Springer和Elsevier的摘要
- (+Abs+Full) 1990 - 2020年期间Springer和Elsevier的摘要以及开放获取的完整出版物文本
预训练超参数
- MAX_LEN = 512 # BERT分词器的默认值
- MLM_PROP = 0.15 # 数据整理器
- num_train_epochs = 3 # 许多文章中发现的最小足够轮数,也是此处训练器的默认值
- per_device_train_batch_size = 16 # 在旧运行中,使用512 MAX_LEN时,Ara上的V100能容纳的最大值为8
- per_device_eval_batch_size = 16 # 通常与上述相同
- gradient_accumulation_steps = 4 # 这将保证最小批量大小为16 * 4 * nGPUs
🔧 技术细节
文档未提供足够的技术实现细节,故跳过该章节。
📄 许可证
本项目采用Apache 2.0许可证。
信息表格
属性 |
详情 |
模型类型 |
针对生物多样性文献的特定领域BERT大小写敏感模型 |
训练数据 |
爬取关键词:biodivers、genetic diversity等;语料库:1990 - 2020年期间Springer和Elsevier的摘要及完整出版物文本 |
评估指标 |
F1值、精确率、召回率、准确率 |
评估数据集 |
命名实体识别:COPIOUS、QEMP等;关系提取:GAD、EU - ADR等;数据集链接:https://doi.org/10.5281/zenodo.6554208 |
引用信息 |
Abdelmageed, N., Löffler, F., & König - Ries, B. (2023). BiodivBERT: a Pre - Trained Language Model for the Biodiversity Domain. |
论文链接 |
[https://ceur - ws.org/Vol - 3415/paper - 7.pdf](https://ceur - ws.org/Vol - 3415/paper - 7.pdf) |
许可证 |
Apache 2.0 |