🚀 RigoBERTa Clinical
RigoBERTa Clinical は、最も大きな公開可能なスペイン語臨床コーパスである ClinText-SP を用いたドメイン適応事前学習によって開発された、スペイン語用の最先端の臨床エンコーダ言語モデルです。このモデルは、複数の臨床NLPベンチマークでのパフォーマンスを大幅に向上させるとともに、臨床ドメインにおける堅牢な言語理解能力を提供します。
📚 詳細ドキュメント
モデルの説明
RigoBERTa Clinical は、汎用的なRigoBERTa 2を、細心の注意を払って選りすぐった臨床コーパスでさらに事前学習することで構築されました。事前学習では、マスク言語モデリング(MLM)を利用して、モデルの言語知識をスペイン語の臨床ドメインに適応させています。
属性 |
詳情 |
開発者 |
IIC |
モデルタイプ |
エンコーダ |
言語 (NLP) |
スペイン語 |
ライセンス |
rigoclinical-nc (許容的な非商用ライセンス) |
ファインチューニング元のモデル |
RigoBERTa 2 |
モデルの出典
🔧 使用目的と制限事項
使用目的
RigoBERTa Clinical は以下の用途を想定して設計されています。
- スペイン語の臨床テキスト理解。
- 臨床ノート分類、臨床テキストのエンティティ認識などの医療NLPタスクや、その他の下流タスクへの応用。
- ベンチマークやモデルのさらなる適応などの研究開発目的。
制限事項と注意点
- ドメイン特異性: スペイン語の臨床テキストには非常に有効ですが、他のドメインや言語には汎化できない可能性があります。
- データバイアス: ClinText-SPは利用可能な最大のコーパスですが、ソース選択や公開臨床データの固有の制限により、バイアスが含まれる可能性があります。
- 運用コスト: 生成型LLMと比較して計算コストが比較的低いエンコーダベースのモデルですが、リソース制約のある環境でのデプロイは慎重に評価する必要があります。
🔧 技術詳細
学習データ: ClinText-SP
ClinText-SPは、最大のオープンなスペイン語臨床コーパスであり、様々なオープンソースからのデータを含んでいます。
- ボリューム: 約2600万トークン、35,996サンプル
- サンプル詳細: サンプルあたり平均約700トークン。長文の臨床ケースと短文の概略テキストの両方を含む。
- ソース: 医学雑誌、臨床共有タスク、放射線学的レポート、Wikipediaの抜粋。
- 入手先: ClinText-SP (Hugging Face Datasets)
学習手順
前処理
- トークナイザー: RigoBERTa 2のトークナイザーを使用して、ベースモデルとの一貫性を確保します。
- 長いシーケンスの処理: 512トークンを超える臨床テキストは、128トークンのストライドで分割されます。短いシーケンスは必要に応じてパディングされます。
- OOVの処理: 語彙外の単語は、サブワードトークナイゼーションを使用して管理され、臨床用語の堅牢な処理が維持されます。
学習詳細
- 目的: マスク言語モデリング(MLM)
- エポック数: 2エポック(下流のパフォーマンスに基づき、約1.8エポック後に最適なモデルが選択されます)
- ハイパーパラメータグリッド:
- バッチサイズ: 32、64、128
- 学習率: バッチサイズ32の場合は {5e-6, 1e-5, 2e-5}、64の場合は {1e-5, 2e-5, 4e-5}、128の場合は {1e-5, 4e-5, 8e-5} の範囲
- 最適な設定: バッチサイズ = 32、学習率 = 2e-5、約2800学習ステップ(約1.8エポック)
- オプティマイザー: AdamW(重み減衰0.1)
- ハードウェア: 単一のNVIDIA A100 GPU(80GBメモリ)で学習
📊 評価
RigoBERTa Clinicalは、固有表現抽出(NER)やマルチラベル分類などのいくつかのスペイン語臨床NLPタスクで評価されました。評価指標(F1スコアとマイクロ平均F1)は、このモデルが以前の臨床および汎用スペイン語言語モデルを上回ることを示しています。
主要な結果:
- cantemist、meddocan、livingner1などのデータセットでトップのパフォーマンスを達成しました。
- 臨床データのみで学習されたモデルのパフォーマンスを一貫して上回り、ドメイン適応時に汎用ドメイン知識を活用する利点を示しています。
- 詳細なベンチマーク結果と比較は、関連する論文に記載されています。
結果の詳細な内訳(多言語ベースラインや他の臨床固有モデルでのパフォーマンスを含む)については、元の論文の表1とネメンイプロットを参照してください。

📖 引用
もしあなたの研究でRigoBERTa Clinicalを使用する場合は、関連する論文を引用してください。
BibTeX:
@misc{subies2025clintextsprigobertaclinicalnew,
title={ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP},
author={Guillem García Subies and Álvaro Barbero Jiménez and Paloma Martínez Fernández},
year={2025},
eprint={2503.18594},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.18594},
}
APA:
Subies, G. G., Barbero Jiménez, Á., & Martínez Fernández, P. (2025). ClinText-SP and RigoBERTa Clinical: A new set of open resources for Spanish Clinical NLP. arXiv. https://arxiv.org/abs/2503.18594
📄 ライセンス
👥 モデルカード作成者と連絡先
Guillem García Subies: guillem.garcia@iic.uam.es, 100500844@alumnos.uc3m.es