BioRedditBERT-uncasedオープンソースモデル - ソーシャルメディアの医療テキストを無料で処理し、健康分析に的確に助力する

ホーム

Bioredditbert Uncased

cambridgeltlによって開発

BioBERTを初期化し、健康関連のReddit投稿でさらに事前学習を行ったBERTモデルで、ソーシャルメディアの医療テキスト処理に特化

大規模言語モデル英語#医療ソーシャルメディア分析 #生物医学NLP #Reddit健康テキスト

ダウンロード数 295

リリース時間 : 3/2/2022

モデル概要

BioRedditBERTは、ソーシャルメディアの医療テキストに最適化された事前学習言語モデルで、Redditの健康討論データによりBioBERTのドメイン適応性を強化し、医療エンティティリンクタスクで優れた性能を発揮

モデル特徴

ソーシャルメディア医療テキスト最適化

Redditの健康討論データにより、非公式な医療テキストに対するモデルの理解能力を強化

生物医学ドメイン適応

BioBERTを初期化し、専門的な医学知識の理解能力を保持

エンティティリンク性能優越

AskAPatientデータセットで現在の最高性能を達成（精度@1が44.3%）

モデル能力

医療エンティティ認識

非公式医療テキスト理解

生物医学概念リンク

ソーシャルメディアテキスト分析

使用事例

医療情報処理

患者フォーラムエンティティ標準化

患者の議論における非公式な症状記述を標準的な医学术語にリンク

精度@1が44.3%で、他の生物医学BERTバリアントを上回る

ソーシャルメディア健康モニタリング

Redditなどのプラットフォーム上の健康討論内容を分析

🚀 BioRedditBERT

BioRedditBERTは、医療関連の自然言語処理タスクに特化したBERTモデルです。BioBERTを初期モデルとし、Redditの医療関連投稿で追加学習することで、ソーシャルメディア上の医療データに対する性能を向上させています。

🚀 クイックスタート

BioRedditBERTは、医療関連のソーシャルメディアデータに対する性能を向上させるために開発されたBERTモデルです。以下のセクションでは、このモデルの詳細な情報を提供します。

✨ 主な機能

BioBERTを初期モデルとして使用し、医療関連の知識を事前に学習しています。
Redditの医療関連投稿で追加学習することで、ソーシャルメディア上の医療データに対する性能を向上させています。
医療エンティティリンキングなどのタスクで高い性能を発揮します。

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

本READMEには具体的な使用例が記載されていないため、このセクションを省略します。

📚 ドキュメント

モデルの説明

BioRedditBERTは、BioBERT (BioBERT-Base v1.0 + PubMed 200K + PMC 270K) から初期化されたBERTモデルであり、健康関連のReddit投稿でさらに事前学習されています。詳細については、論文 COMETA: A Corpus for Medical Entity Linking in the Social Media (EMNLP 2020) を参照してください。

学習データ

2015年初から2018年末までに、r/AskDocs、r/health などの68の健康テーマのサブレディットからすべてのスレッドをクロールし、80万件以上の議論を収集しました。この収集物は、削除された投稿やボットやモデレーターからのコメントなどを削除することで精錬されました。最終的に、約3億トークンと約78万語の語彙サイズを持つ学習コーパスを取得しました。

学習手順

元の google-research/bert リポジトリの同じ事前学習スクリプトを使用します。モデルは、BioBERT-Base v1.0 + PubMed 200K + PMC 270K で初期化されます。 2つのGeForce GTX 1080Ti (11 GB) GPU上で、バッチサイズ64、最大シーケンス長64、学習率 2e-5 で10万ステップ学習します。その他のハイパーパラメータはデフォルトと同じです。

評価結果

ソーシャルメディアドメインでの追加事前学習のメリットを示すために、ソーシャルメディア内の医療エンティティリンキングデータセット AskAPatient (Limsopatham and Collier 2016) での結果を示します。すべてのモデルに対して同じ10分割交差検証手順を実行し、微調整なしの平均結果を報告します。[CLS] はエンティティの言及の表現として使用されます（すべてのトークンの平均も試しましたが、一般的に [CLS] の方が性能が良いことがわかりました）。

モデル	Accuracy@1	Accuracy@5
BERT-base-uncased	38.2	43.3
BioBERT v1.1	41.4	51.5
ClinicalBERT	43.9	54.3
BlueBERT	41.5	48.5
SciBERT	42.3	51.9
PubMedBERT	42.5	49.6
BioRedditBERT	44.3	56.2

🔧 技術詳細

本READMEには具体的な技術詳細が記載されていないため、このセクションを省略します。

📄 ライセンス

本READMEにはライセンス情報が記載されていないため、このセクションを省略します。

BibTeXエントリと引用情報

@inproceedings{basaldella-2020-cometa,
    title = "{COMETA}: A Corpus for Medical Entity Linking in the Social Media",
    author = "Basaldella, Marco  and Liu, Fangyu, and Shareghi, Ehsan, and Collier, Nigel",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2020",
    publisher = "Association for Computational Linguistics"
}