covidbert - nliオープンソースモデル - CORD19データに基づく汎用文埋め込み表現の生成

Covidbert Nli

gsartiによって開発

コロナウイルス研究論文データセットCORD19で訓練されたBERTモデル、自然言語推論タスクによるファインチューニングで汎用文埋め込み表現を生成

テキスト埋め込み #新型コロナ研究の意味理解 #NLIファインチューニング埋め込み #生物医学テキスト処理

ダウンロード数 26

リリース時間 : 3/2/2022

モデル概要

このモデルはCORD19データセットで事前訓練され、SNLIとMultiNLIデータセットでファインチューニングされたBERTモデルで、COVID-19関連テキストの意味表現生成に特化しており、研究文献検索や意味類似度計算などのタスクに適しています。

モデル特徴

コロナウイルス領域適応

CORD19コロナウイルス研究論文データセットに基づく事前訓練で、COVID-19関連テキストの表現能力が向上

自然言語推論ファインチューニング

SNLIとMultiNLIデータセットでファインチューニングされ、文レベルの意味表現能力が最適化

効率的な訓練構成

バッチサイズ64、23000訓練ステップ、1450ウォームアップステップの最適化構成を採用し、P100 GPUでわずか6時間で訓練完了

モデル能力

テキスト意味表現

文類似度計算

研究文献検索

自然言語推論

使用事例

研究文献処理

新型コロナ文献意味検索

意味類似度に基づくCOVID-19研究論文検索システム

新型コロナ意味ブラウザプロジェクトで応用

科学文献分類

コロナウイルス関連研究論文の自動分類

🚀 CovidBERT - NLI

このモデル CovidBERT は、DeepSetによって、コロナウイルスに関する科学論文のAllenAIの CORD19データセットを用いて学習されたものです。

このモデルは、元のBERTのワードピース語彙を使用し、その後、SNLI と MultiNLI データセットで、sentence - transformers ライブラリを用いて、平均プーリング戦略 と ソフトマックス損失 を使用して汎用的な文埋め込み [1] を生成するように微調整されました。

CORD - 19での元の学習のパラメータ詳細は、DeepSetのMLFlow で確認できます。