B

Bioformer 8L

bioformersによって開発
生物医学テキストマイニング専用に設計された軽量BERTモデルで、BERT-baseの3倍の速度で動作し、性能はBioBERT/PubMedBERTと同等またはそれ以上
ダウンロード数 164
リリース時間 : 3/2/2022

モデル概要

Bioformer-8Lは、生物医学分野のコーパスをゼロから事前学習した軽量BERTモデルで、生物医学専用の語彙を使用し、さまざまな生物医学テキストマイニングタスクに適しています

モデル特徴

生物医学専用
完全に生物医学分野のコーパス(PubMed抄録とPMC全文)で事前学習され、生物医学専用の語彙を使用
高効率軽量
パラメータサイズ42.8Mで、BERT-baseの3倍の速度で動作し、下流タスクでも高性能を維持
全単語マスキング戦略
事前学習では全単語マスキング(whole-word masking)戦略を採用し、マスキング率は15%
専門語彙カバレッジ
語彙は生物医学文献で訓練され、32768のトークンを含み、生物医学の特殊記号を網羅

モデル能力

生物医学テキスト理解
マスク言語モデリング
生物医学エンティティ認識
生物医学テキスト分類

使用事例

生物医学研究
疾病概念認識
生物医学テキスト中の疾病関連概念を識別
マスク埋め込み例で'糖尿病'などの医学概念を正確に識別
文献分類
生物医学文献を多ラベル主題分類
BioCreative VII COVID-19分類チャレンジで最高性能を達成
臨床テキスト処理
臨床記録分析
臨床記録中の重要な医学情報を分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase