🚀 BiodivBERT
BiodivBERTは、生物多様性分野の文献に特化した事前学習済み言語モデルです。生物多様性関連の命名エンティティ認識や関係抽出などのタスクに有効です。
🚀 クイックスタート
モデルの概要
- BiodivBERTは、生物多様性文献向けのドメイン特化型BERTベースのケース付きモデルです。
- BERT base casedモデルのトークナイザーを使用しています。
- BiodivBERTは、生物多様性文献のアブストラクトと全文で事前学習されています。
- BiodivBERTは、生物多様性分野の命名エンティティ認識と関係抽出の2つの下流タスクでファインチューニングされています。
- 詳細については、GitHubリポジトリをご覧ください。
使い方
- BiodivBERTは、huggingfaceライブラリを介して以下のように使用できます。
基本的な使用法
>>> from transformers import AutoTokenizer, AutoModelForMaskedLM
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForMaskedLM.from_pretrained("NoYo25/BiodivBERT")
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForTokenClassification.from_pretrained("NoYo25/BiodivBERT")
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
>>> model = AutoModelForSequenceClassification.from_pretrained("NoYo25/BiodivBERT")
✨ 主な機能
モデルの特性
属性 |
详情 |
モデルタイプ |
BiodivBERTは、生物多様性分野の文献に特化した事前学習済み言語モデルです。 |
トレーニングデータ |
生物多様性分野関連の出版物のアブストラクトと全文を使用しています。 |
評価指標 |
F1、Precision、Recall、Accuracy |
評価データセット
引用情報
📦 インストール
このセクションでは、BiodivBERTを使用するための基本的なインストール手順を説明します。huggingfaceライブラリを使用することで、簡単にモデルを利用できます。
依存関係のインストール
pip install transformers
モデルのロード
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("NoYo25/BiodivBERT")
model = AutoModelForMaskedLM.from_pretrained("NoYo25/BiodivBERT")
🔧 技術詳細
事前学習のハイパーパラメータ
- MAX_LEN = 512 # BERTトークナイザーのデフォルト値
- MLM_PROP = 0.15 # データコレーター
- num_train_epochs = 3 # 多くの論文で見られる最小限の十分なエポック数 && ここでのトレーナーのデフォルト値
- per_device_train_batch_size = 16 # 512 MAX_LENでAraのV100が保持できる最大値は、以前の実行では8でした
- per_device_eval_batch_size = 16 # 通常は上記と同じ
- gradient_accumulation_steps = 4 # これにより、最小バッチサイズが16 * 4 * nGPUsになります。
トレーニングデータ
- BiodivBERTは、生物多様性分野関連の出版物のアブストラクトと全文で事前学習されています。
- ElsevierとSpringerのAPIを使用して、このようなデータをクロールしました。
- 1990年から2020年までの出版物を対象としています。
評価結果
BiodivBERTは、下流タスクにおいて、BERT_base_cased
、biobert_v1.1
、およびベースラインアプローチとしてのBiLSTM
を上回る性能を発揮しました。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。