🚀 bert-base-cased-biological-ner
bert-base-casedをベースに、バイオメディカル分野の固有表現抽出(NER)タスクに特化して微調整されたモデルです。バイオメディカル文書から遺伝子、タンパク質、疾患などのエンティティを高精度に抽出できます。
🚀 クイックスタート
このモデルはバイオメディカル分野の固有表現抽出(NER)タスクに使用されます。以下のコード例を参考に、モデルを使ってみましょう。
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')
text = "Add your text here"
results = ner(text)
pd.DataFrame.from_records(results)
✨ 主な機能
- バイオメディカル分野の固有表現抽出(NER)タスクに特化したモデルです。
- 非構造化テキストから遺伝子、タンパク質、疾患などのバイオメディカルエンティティを識別・抽出できます。
- 科学文献の情報検索システムを強化することができます。
- バイオメディカル文献からの知識抽出やデータマイニングをサポートします。
- 構造化されたバイオメディカルデータベースの作成を容易にします。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。
pip install transformers pandas torch datasets tokenizers
💻 使用例
基本的な使用法
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')
text = "Add your text here"
results = ner(text)
pd.DataFrame.from_records(results)
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
モデル名 |
bert-base-cased-biomedical-ner |
モデルアーキテクチャ |
BERT (Bidirectional Encoder Representations from Transformers) |
事前学習モデル |
bert-base-cased |
微調整データセット |
SourceData Dataset |
モデルの説明
bert-base-cased-biomedical-ner
は、BERT(Bidirectional Encoder Representations from Transformers)モデルの微調整バージョンで、バイオメディカル分野の固有表現抽出(NER)タスクに特化して設計されています。このモデルは、出版コンテキストにおける機械学習とAIのための大規模で包括的なバイオメディカルコーパスであるSourceDataデータセットで微調整されています。
固有表現抽出は、自然言語処理において重要なタスクであり、特にバイオメディカル分野では、遺伝子、タンパク質、疾患などのエンティティを識別および分類することが、情報検索、知識抽出、データマイニングなどのさまざまなアプリケーションに不可欠です。
想定される使用方法
bert-base-cased-biological-ner
モデルは、バイオメディカル分野のNERタスクに使用することを想定しています。以下のようなアプリケーションに使用できます。
- 非構造化テキストからバイオメディカルエンティティ(例:遺伝子、タンパク質、疾患)を識別および抽出する。
- 科学文献の情報検索システムを強化する。
- バイオメディカル文献からの知識抽出およびデータマイニングをサポートする。
- 構造化されたバイオメディカルデータベースの作成を容易にする。
ラベル
ラベル |
説明 |
SMALL_MOLECULE |
小分子 |
GENEPROD |
遺伝子産物(遺伝子とタンパク質) |
SUBCELLULAR |
細胞内成分 |
CELL_LINE |
細胞株 |
CELL_TYPE |
細胞種 |
TISSUE |
組織と臓器 |
ORGANISM |
生物種 |
DISEASE |
疾患 |
EXP_ASSAY |
実験アッセイ |
ラベル情報のソース: EMBO/SourceData Dataset |
|
トレーニング手順
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 2e-05
- トレーニングバッチサイズ: 16
- 評価バッチサイズ: 16
- シード: 42
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラ: 線形
- エポック数: 3
フレームワークバージョン
- Transformers 4.35.0
- Pytorch 2.1.0+cu118
- Datasets 2.14.6
- Tokenizers 0.14.1
🔧 技術詳細
このモデルは、BERTアーキテクチャをベースに、バイオメディカル分野の固有表現抽出タスクに特化して微調整されています。トレーニングには、SourceDataデータセットを使用し、特定のハイパーパラメータとオプティマイザを用いて学習を行いました。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
⚠️ 重要提示
このモデルは、ModernBERTアーキテクチャをベースに微調整された新しいバージョンに取って代わられています。
改善されたモデルはこちらをチェックしてください。
これらの新しいモデルは、バイオメディカルNERタスクにおいて向上した性能を提供し、ほとんどのユースケースで推奨されます。