Drbert CASM2
DrBERT-CASM2は、DrBERTを微調整したフランス語の固有表現認識モデルで、生物医学および臨床分野のエンティティ検出に特化しています。
Downloads 6,224
Release Time : 11/20/2023
Model Overview
このモデルは、フランス語の臨床テキスト内の問題、治療法、検査項目の3種類のエンティティを検出でき、医学文書分析の初期段階に適しています。
Model Features
生物医学分野の最適化
DrBERT事前学習モデルを微調整し、生物医学および臨床分野のフランス語テキストに特化して最適化されています。
多クラスエンティティ認識
問題、治療法、検査項目の3種類の臨床関連エンティティを検出できます。
効率的な学習
最大トークンサイズを128に制限することで、学習時間を大幅に削減しました(約3時間)。
Model Capabilities
フランス語臨床テキスト分析
固有表現認識
医学エンティティ検出
Use Cases
臨床文書分析
病歴エンティティの抽出
フランス語の臨床病歴から問題、治療法、検査項目などの重要な情報を自動的に識別します。
テストセットで全体のF1値0.7416の性能を達成しました。
## 🚀 DrBERT-CASM2
**DrBERT-CASM2**は、フランス語の固有表現認識モデルです。これは、[DrBERT](https://huggingface.co/Dr-BERT/DrBERT-4GB-CP-PubMedBERT)(生物医学および臨床分野向けのフランス語の事前学習モデル)からファインチューニングされました。medkit Trainerを使用して、**problem**、**treatment**、**test**の3種類のエンティティを検出するように学習されています。
## 🚀 クイックスタート
### モデルの概要
**DrBERT-CASM2**は、フランス語の固有表現認識モデルで、[DrBERT](https://huggingface.co/Dr-BERT/DrBERT-4GB-CP-PubMedBERT) からファインチューニングされました。この事前学習モデルは、生物医学および臨床分野向けのフランス語モデルです。medkit Trainerを使用して、**problem**、**treatment**、**test** のエンティティを検出するように訓練されています。
- **ファインチューニングに使用**:medkit [GitHubリポジトリ](https://github.com/TeamHeka/medkit)
- **開発者**:@camila-ud、medkit、HeKA Research team
- **データセットのソース**:
- @aneurazによる注釈付きバージョン 'corpusCasM2: A corpus of annotated clinical texts'。注釈付けは、Université Paris Citéの修士学生によって共同で行われました。
- コーパスにはCASのドキュメントが含まれています。
```
Natalia Grabar, Vincent Claveau, and Clément Dalloux. 2018. CAS: French Corpus with Clinical Cases.
In Proceedings of the Ninth International Workshop on Health Text Mining and Information Analysis,
pages 122–128, Brussels, Belgium. Association for Computational Linguistics.
```
### 想定される用途と制限
#### 制限とバイアス
このモデルは**開発およびテストフェーズ**用に訓練されています。訓練データセットによる制限があり、注意して使用する必要があります。結果は保証されず、データ探索段階でのみ使用するべきです。このモデルは、フランス語の医療文書の分析の初期段階でエンティティを検出できる可能性があります。
訓練時間を最小限に抑えるため、最大トークンサイズは**128トークン**に減らされています。
### 使い方
#### medkitのインストール
まず、次のコマンドでmedkitをインストールしてください。
pip install 'medkit-lib[optional]'
詳細と例については、[ドキュメント](https://medkit.readthedocs.io/en/latest/user_guide/install.html)を参照してください。
#### モデルの使用
```python
from medkit.core.text import TextDocument
from medkit.text.ner.hf_entity_matcher import HFEntityMatcher
matcher = HFEntityMatcher(model="medkit/DrBERT-CASM2")
test_doc = TextDocument("Elle souffre d'asthme mais n'a pas besoin d'Allegra")
detected_entities = matcher.run([test_doc.raw_segment])
# show information
msg = "|".join(f"'{entity.label}':{entity.text}" for entity in detected_entities)
print(f"Text: '{test_doc.text}'\n{msg}")
Text: "Elle souffre d'asthme mais n'a pas besoin d'Allegra"
'problem':asthme|'treatment':Allegra
訓練データ
このモデルは、修士学生によって注釈付けされた臨床事例を含む内部コーパスであるCASM2を使用してファインチューニングされました。コーパスには、検出対象のエンティティを含む5000以上のmedkitドキュメント(フレーズ)が含まれています。
分割ごとのドキュメント数(フレーズ)
分割 | # medkitドキュメント |
---|---|
訓練 | 5824 |
検証 | 1457 |
テスト | 1821 |
エンティティタイプごとの例の数
分割 | treatment | test | problem |
---|---|---|---|
訓練 | 3258 | 3990 | 6808 |
検証 | 842 | 1007 | 1745 |
テスト | 994 | 1289 | 2113 |
訓練手順
このモデルは、medkit trainerを使用してCPU上でファインチューニングされ、約3時間かかりました。
モデルの性能
CASM2テストデータセットで計算されたモデルの性能(medkit seqeval evaluatorを使用)
エンティティ | 精度 | 再現率 | F1値 |
---|---|---|---|
treatment | 0.7492 | 0.7666 | 0.7578 |
test | 0.7449 | 0.8240 | 0.7824 |
problem | 0.6884 | 0.7304 | 0.7088 |
全体 | 0.7188 | 0.7660 | 0.7416 |
medkitを使用した評価方法
from medkit.text.metrics.ner import SeqEvalEvaluator
# load the matcher and get predicted entities by document
matcher = HFEntityMatcher(model="medkit/DrBERT-CASM2")
predicted_entities = [matcher.run([doc.raw_segment]) for doc in test_documents]
evaluator = SeqEvalEvaluator(tagging_scheme="iob2")
evaluator.compute(test_documents,predicted_entities=predicted_entities)
文字ではなくトークンで評価する場合は、HFのトークナイザーを使用できます。
from transformers import AutoTokenizer
tokenizer_drbert = AutoTokenizer.from_pretrained("medkit/DrBERT-CASM2", use_fast=True)
evaluator = SeqEvalEvaluator(tokenizer=tokenizer_drbert,tagging_scheme="iob2")
evaluator.compute(test_documents,predicted_entities=predicted_entities)
引用
@online{medkit-lib,
author={HeKA Research Team},
title={medkit, A Python library for a learning health system},
url={https://pypi.org/project/medkit-lib/},
urldate = {2023-07-24},
}
HeKA Research Team, “medkit, a Python library for a learning health system.” https://pypi.org/project/medkit-lib/ (accessed Jul. 24, 2023).
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
Indonesian Roberta Base Posp Tagger
MIT
これはインドネシア語RoBERTaモデルをファインチューニングした品詞タグ付けモデルで、indonluデータセットで訓練され、インドネシア語テキストの品詞タグ付けタスクに使用されます。
シーケンスラベリング
Transformers Other

I
w11wo
2.2M
7
Bert Base NER
MIT
BERTを微調整した命名エンティティ識別モデルで、4種類のエンティティ(場所(LOC)、組織(ORG)、人名(PER)、その他(MISC))を識別できます。
シーケンスラベリング English
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
このモデルはRoBERTaをファインチューニングしたシーケンスラベリングモデルで、医療記録内の保護対象健康情報(PHI/PII)を識別・除去します。
シーケンスラベリング
Transformers Supports Multiple Languages

D
obi
1.1M
33
Ner English Fast
Flairに組み込まれた英語の高速4クラス固有表現認識モデルで、Flair埋め込みとLSTM-CRFアーキテクチャを使用し、CoNLL-03データセットで92.92のF1スコアを達成しています。
シーケンスラベリング
PyTorch English
N
flair
978.01k
24
French Camembert Postag Model
Camembert-baseをベースとしたフランス語の品詞タグ付けモデルで、free-french-treebankデータセットを使用して学習されました。
シーケンスラベリング
Transformers French

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
XLM - Roberta - largeアーキテクチャに基づいて微調整されたスペイン語の命名エンティティ認識モデルで、CoNLL - 2002データセットで優れた性能を発揮します。
シーケンスラベリング
Transformers Spanish

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
NusaBert-v1.3を基にインドネシア語NERタスクでファインチューニングした固有表現認識モデル
シーケンスラベリング
Transformers Other

N
cahya
759.09k
3
Ner English Large
Flairフレームワークに組み込まれた英語の4種類の大型NERモデルで、文書レベルのXLM - R埋め込みとFLERT技術に基づいており、CoNLL - 03データセットでF1スコアが94.36に達します。
シーケンスラベリング
PyTorch English
N
flair
749.04k
44
Punctuate All
MIT
xlm - roberta - baseを微調整した多言語句読点予測モデルで、12種類の欧州言語の句読点自動補完に対応しています。
シーケンスラベリング
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
xlm-roberta-baseをファインチューニングした日本語固有表現認識モデル
シーケンスラベリング
Transformers Supports Multiple Languages

X
tsmatz
630.71k
25
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98