bert-base-cased-biomedical-nerオープンソースモデル - 生物医学分野のエンティティ認識タスクを支援

ホーム

Bert Base Cased Biomedical Ner

Kushtrimによって開発

BERTアーキテクチャに基づく生物医学的命名エンティティ認識モデルで、生物医学分野のエンティティ認識タスク向けに設計されています。

シーケンスラベリング

Transformers

英語オープンソースライセンス:Apache-2.0 #生物医学NER #科学文献解析 #BERTファインチューニング

ダウンロード数 98

リリース時間 : 11/3/2023

モデル概要

このモデルはBERT-base-cased事前学習モデルをファインチューニングしたバリアントで、生物医学分野の命名エンティティ認識（NER）タスク向けに設計されています。SourceDataデータセットでファインチューニングされており、遺伝子、タンパク質、疾患などの生物医学的エンティティの識別に適しています。

モデル特徴

生物医学分野専用

生物医学テキストに特化して最適化されており、遺伝子、タンパク質、疾患などの専門的なエンティティを正確に識別できます。

BERTアーキテクチャベース

実績のあるBERTアーキテクチャを採用しており、強力な文脈理解能力を備えています。

豊富なエンティティラベル

低分子、遺伝子産物、細胞タイプなど、10種類の異なる生物医学的エンティティの識別をサポートしています。

モデル能力

生物医学的エンティティ認識

科学文献情報抽出

非構造化テキスト分析

使用事例

生物医学研究

文献情報抽出

生物医学文献から遺伝子、タンパク質などのエンティティ情報を自動抽出

構造化された生物医学知識ベースの構築

知識グラフ構築

テキスト中の生物医学的エンティティとその関係を識別

生物医学知識グラフの自動構築を支援

情報検索

科学検索エンジンの強化

生物医学文献検索エンジンにエンティティ認識機能を提供

検索結果の精度と関連性の向上

🚀 bert-base-cased-biological-ner

bert-base-casedをベースに、バイオメディカル分野の固有表現抽出（NER）タスクに特化して微調整されたモデルです。バイオメディカル文書から遺伝子、タンパク質、疾患などのエンティティを高精度に抽出できます。

🚀 クイックスタート

このモデルはバイオメディカル分野の固有表現抽出（NER）タスクに使用されます。以下のコード例を参考に、モデルを使ってみましょう。

from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd

tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")

ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')

text = "Add your text here"

results = ner(text)

pd.DataFrame.from_records(results)

✨ 主な機能

バイオメディカル分野の固有表現抽出（NER）タスクに特化したモデルです。
非構造化テキストから遺伝子、タンパク質、疾患などのバイオメディカルエンティティを識別・抽出できます。
科学文献の情報検索システムを強化することができます。
バイオメディカル文献からの知識抽出やデータマイニングをサポートします。
構造化されたバイオメディカルデータベースの作成を容易にします。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers pandas torch datasets tokenizers

💻 使用例

基本的な使用法

from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
import pandas as pd

tokenizer = AutoTokenizer.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")
model = AutoModelForTokenClassification.from_pretrained("Kushtrim/bert-base-cased-biomedical-ner")

ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='first')

text = "Add your text here"

results = ner(text)

pd.DataFrame.from_records(results)

📚 ドキュメント

モデルの詳細

プロパティ	詳細
モデル名	bert-base-cased-biomedical-ner
モデルアーキテクチャ	BERT (Bidirectional Encoder Representations from Transformers)
事前学習モデル	bert-base-cased
微調整データセット	SourceData Dataset

モデルの説明

bert-base-cased-biomedical-ner は、BERT（Bidirectional Encoder Representations from Transformers）モデルの微調整バージョンで、バイオメディカル分野の固有表現抽出（NER）タスクに特化して設計されています。このモデルは、出版コンテキストにおける機械学習とAIのための大規模で包括的なバイオメディカルコーパスであるSourceDataデータセットで微調整されています。

固有表現抽出は、自然言語処理において重要なタスクであり、特にバイオメディカル分野では、遺伝子、タンパク質、疾患などのエンティティを識別および分類することが、情報検索、知識抽出、データマイニングなどのさまざまなアプリケーションに不可欠です。

想定される使用方法

bert-base-cased-biological-ner モデルは、バイオメディカル分野のNERタスクに使用することを想定しています。以下のようなアプリケーションに使用できます。

非構造化テキストからバイオメディカルエンティティ（例：遺伝子、タンパク質、疾患）を識別および抽出する。
科学文献の情報検索システムを強化する。
バイオメディカル文献からの知識抽出およびデータマイニングをサポートする。
構造化されたバイオメディカルデータベースの作成を容易にする。

ラベル

ラベル	説明
SMALL_MOLECULE	小分子
GENEPROD	遺伝子産物（遺伝子とタンパク質）
SUBCELLULAR	細胞内成分
CELL_LINE	細胞株
CELL_TYPE	細胞種
TISSUE	組織と臓器
ORGANISM	生物種
DISEASE	疾患
EXP_ASSAY	実験アッセイ
ラベル情報のソース: EMBO/SourceData Dataset

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率: 2e-05
トレーニングバッチサイズ: 16
評価バッチサイズ: 16
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラ: 線形
エポック数: 3

フレームワークバージョン

Transformers 4.35.0
Pytorch 2.1.0+cu118
Datasets 2.14.6
Tokenizers 0.14.1

🔧 技術詳細

このモデルは、BERTアーキテクチャをベースに、バイオメディカル分野の固有表現抽出タスクに特化して微調整されています。トレーニングには、SourceDataデータセットを使用し、特定のハイパーパラメータとオプティマイザを用いて学習を行いました。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

⚠️ 重要提示

このモデルは、ModernBERTアーキテクチャをベースに微調整された新しいバージョンに取って代わられています。
改善されたモデルはこちらをチェックしてください。

🔬 ModernBERT-base-biomedical-ner

🧬 ModernBERT-large-biomedical-ner

これらの新しいモデルは、バイオメディカルNERタスクにおいて向上した性能を提供し、ほとんどのユースケースで推奨されます。