ScholarBERTオープンソースモデル - 無料でのデプロイで科学文献内容の正確な理解を支援

ホーム

Scholarbert

globuslabsによって開発

大規模な科研論文集に基づいて事前学習されたBERT - largeのバリエーションで、パラメータ数は3億4000万で、科学文献の理解に特化しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #科研論文の事前学習 #多学問分野のカバー #大規模コーパス

ダウンロード数 25

リリース時間 : 5/22/2022

モデル概要

ScholarBERT_100は、2210億トークンの科学文献で事前学習された言語モデルで、BERT - largeアーキテクチャを採用し、科学テキスト処理タスクに適しています。

モデル特徴

科学文献の最適化

科学文献に特化して事前学習され、人文科学、生命科学、物理科学などの多学問分野をカバーしています。

大規模学習

2210億トークンの超大规模科学文献データセットを用いて学習されました。

大文字小文字の区別

元のテキストの大文字小文字の情報を保持し、科学用語の識別に特に重要です。

モデル能力

科学テキストの理解

学術文献の分析

多学問分野の知識処理

使用事例

学術研究

文献レビューの生成

大量の科研論文を自動分析し、分野のレビューを生成します。

科学用語の識別

科研文献中の専門用語や概念を正確に識別します。

教育技術

スマート学術執筆支援

学生や研究者の学術執筆を支援します。

🚀 ScholarBERT_100モデル

これは、ScholarBERTモデルファミリーのScholarBERT_100バリアントです。このモデルは、大量の科学研究論文（2210億トークン）で事前学習されています。これは大文字小文字を区別するモデルです。トークナイザーは、デフォルトですべての入力を小文字に変換しません。このモデルは、BERT-largeと同じアーキテクチャに基づいており、合計3億4000万個のパラメータを持っています。

✨ 主な機能

このモデルは、科学研究分野に特化した事前学習が行われており、大規模な科学文献データセットを利用しています。また、大文字小文字を区別することができ、より細かな情報を扱うことが可能です。

📚 ドキュメント

モデルアーキテクチャ

ハイパーパラメータ	値
レイヤー数	24
隠れ層のサイズ	1024
アテンションヘッド数	16
総パラメータ数	340M

学習データセット

語彙とモデルは、PRD科学文献データセットの100% で事前学習されています。 PRDデータセットは、カリフォルニアに拠点を置く非営利組織であるPublic.Resource.Org, Inc.（「Public Resource」）によって提供されています。このデータセットは、学術論文ファイルのコーパスから構築されており、178,928のジャーナルから75,496,055の論文のテキストを抽出することに成功しています。これらの論文は、人文科学、生命科学と医学、物理科学、社会科学、および技術の分野にまたがっています。論文の分布を以下に示します。

corpus pie chart

BibTeXエントリと引用情報

このモデルを使用する場合は、次の論文を引用してください。

@misc{hong2023diminishing,
      title={The Diminishing Returns of Masked Language Models to Science}, 
      author={Zhi Hong and Aswathy Ajith and Gregory Pauloski and Eamon Duede and Kyle Chard and Ian Foster},
      year={2023},
      eprint={2205.11342},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}