🚀 EriBERTa
EriBERTaは、広範な医療および臨床コーパスで事前学習されたバイリンガルのドメイン特化言語モデルです。臨床ドメインにおいて、従来のスペイン語言語モデルを上回る性能を発揮し、医療テキストの理解と意味のある情報の抽出に優れた能力を示します。また、EriBERTaは有望な転移学習能力を持ち、一方の言語から他方の言語への知識移転を可能にします。この特性は、スペイン語の臨床データが不足している状況で特に有益です。
🚀 クイックスタート
以下のコードを使用してモデルをロードできます。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("HiTZ/EriBERTa-base")
model = AutoModelForMaskedLM.from_pretrained("HiTZ/EriBERTa-base")
✨ 主な機能
📚 ドキュメント
モデルの説明
- 開発者: Iker De la Iglesia、Aitziber Atutxa、Koldo Gojenola、Ander Barrena
- 連絡先: Iker De la Iglesia と Ander Barrena
- 言語 (NLP): 英語、スペイン語
- ライセンス: apache - 2.0
- 資金提供:
- スペイン科学・イノベーション省、MCIN/AEI/ 10.13039/501100011033/FEDERプロジェクト:
- Proyectos de Generación de Conocimiento 2022 (EDHIA PID2022 - 136522OB - C22)
- DOTT - HEALTH/PAT - MED PID2019 - 543106942RB - C31.
- EU NextGeneration EU/PRTR (DeepR3 TED2021 - 130295B - C31, ANTIDOTE PCI2020 - 120717 - 2 EU ERA - Net CHIST - ERA).
- バスク政府:
モデルの詳細
プロパティ |
詳細 |
パラメータ数 |
~125M |
語彙サイズ |
64k |
シーケンス長 |
512 |
トークン/ステップ |
2M |
ステップ数 |
125k |
総トークン数 |
4.5B |
スケジューラ |
ウォームアップ付き線形 |
ピーク学習率 |
2.683e - 4 |
ウォームアップステップ |
7.5k |
学習データ
言語 |
データソース |
単語数 |
英語 |
ClinicalTrials |
127.4M |
英語 |
EMEA |
12M |
英語 |
PubMed |
968.4M |
英語 |
MIMIC - III |
206M |
スペイン語 |
EMEA |
13.6M |
スペイン語 |
PubMed |
8.4M |
スペイン語 |
Medical Crawler |
918M |
スペイン語 |
SPACC |
350K |
スペイン語 |
UFAL |
10.5M |
スペイン語 |
WikiMed |
5.2M |
制限とバイアス
EriBERTaは現在、Fill Maskタスクを実行するためのマスク言語モデリングに最適化されています。固有表現認識 (NER) やテキスト分類などの下流タスクでの微調整の可能性は評価されていますが、実際の運用にデプロイする前に、特定のアプリケーションに対してモデルを検証し、テストすることを推奨します。これにより、モデルの有効性と信頼性を確保できます。
医療臨床コーパスの不足により、EriBERTaモデルはウェブクローリングを含む複数のソースから収集されたコーパスで学習されています。したがって、使用されたコーパスは、臨床言語に存在するすべての言語的および文脈的なバリエーションを網羅していない可能性があります。その結果、モデルは、学習データに十分に表されていない特定の臨床サブドメインやまれな医療状態に適用された場合に制限がある可能性があります。
バイアス
- データ収集バイアス: EriBERTaの学習データは、ウェブクローリング技術を使用した様々なソースから収集されました。この方法は、特定のタイプのコンテンツ、視点、および言語使用パターンの普及に関連するバイアスをもたらす可能性があります。その結果、モデルはこれらのバイアスを反映し、予測に伝播する可能性があります。
- 人口統計学的および言語的バイアス: ウェブから収集されたコーパスがすべての人口統計グループや言語的ニュアンスを均等に表していない可能性があるため、モデルは特定の集団に対しては非常に良い性能を発揮する一方、他の集団に対しては性能が低い可能性があります。これは、異なる患者グループ間で臨床データ処理と情報検索の品質に格差をもたらす可能性があります。
- 未検討の倫理的考慮事項: 現在のところ、EriBERTaに埋め込まれた倫理的影響とバイアスを体系的に評価するための包括的な対策は講じられていません。私たちはこれらの問題に取り組むことにコミットしていますが、現在のモデルのバージョンは、データに内在する既存のバイアスと倫理的懸念を不注意にも永続化する可能性があります。
免責事項
EriBERTaは医療機器として使用するために設計または開発されていません。すべての出力は医療専門家によって検証されるべきであり、直接的な診断を主張してはなりません。モデルの出力は必ずしも完全に信頼できるとは限りません。言語モデルの性質上、予測が誤っていたりバイアスがあったりする可能性があります。
私たちはこのモデルの使用について一切の責任を負いません。理想的には、適用前に微調整とテストを行う必要があります。資格のある専門家による十分な検証と監督なしに、医療ツールとしてまたは重要な意思決定プロセスに使用してはなりません。
📄 ライセンス
このモデルはapache - 2.0ライセンスの下で提供されています。
引用情報
@misc{delaiglesia2023eriberta,
title={{EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing}},
author={Iker De la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander Barrena},
year={2023},
eprint={2306.07373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}