オープンソースのBabyBERTa - 3モデル - 言語習得研究を支援する、子供向け英語コーパスで訓練されたモデル

Home

Babyberta 3

Developed by phueb

BabyBERTaはRoBERTaをベースにした軽量版で、言語習得研究のために設計され、500万語のアメリカ英語の児童向け入力コーパスでトレーニングされています。

大規模言語モデル

Transformers

EnglishOpen Source License:MIT #児童言語習得 #軽量RoBERTa #文法知識評価

Downloads 22

Release Time : 3/2/2022

Model Overview

BabyBERTaは、RoBERTaアーキテクチャをベースにした軽量な言語モデルで、児童の言語習得研究のために開発されました。高性能な計算インフラを必要とせず、単一のGPUを搭載したデスクトップPCで動作可能です。

Model Features

軽量設計

モデルは単一のGPUを搭載したデスクトップPCで動作するように設計されており、高性能な計算インフラは不要です。

児童向け入力

トレーニングデータは500万語のアメリカ英語の児童向け入力コーパスで、言語習得研究に適しています。

文法知識学習

モデルは児童向け入力から文法知識を学習するために開発され、Zorroテストスイートで評価されます。

トレーニング最適化

トレーニング中にマスクされていないトークンを予測することはありません（unmask_probパラメータはゼロに設定されています）。

Model Capabilities

言語モデリング

文法知識学習

児童言語習得研究

Use Cases

言語習得研究

児童言語発達研究

BabyBERTaを使用して、児童向け入力における文法知識学習プロセスを分析します。

Zorroテストスイートで80.3%の全体精度を達成しました。

🚀 BabyBERTA

BabyBERTaは、500万語のアメリカ英語の子供向け入力データで学習された、RoBERTaの軽量版モデルです。このモデルは、言語習得研究を目的としており、単一のGPU付きデスクトップで動作し、高性能コンピューティングインフラストラクチャは必要ありません。

🚀 クイックスタート

概要

BabyBERTaは、500万語のアメリカ英語の子供向け入力データで学習されたRoBERTaの軽量版です。言語習得研究を目的としており、単一のGPU付きデスクトップで動作し、高性能コンピューティングインフラストラクチャは必要ありません。

提供されている3つのモデルは、論文で報告された10個の学習済みモデルからランダムに選択されたものです。

トークナイザーの読み込み

BabyBERTaはadd_prefix_space=Trueで学習されているため、トークナイザーのデフォルト設定では適切に動作しません。例えば、BabyBERTa - 1のトークナイザーを読み込むには、以下のようにします。

tokenizer = RobertaTokenizerFast.from_pretrained("phueb/BabyBERTa-1",
                                                 add_prefix_space=True)

ハイパーパラメータ

詳細は論文を参照してください。提供されているすべてのモデルは、バッチサイズ16で40万ステップ学習されています。重要なことは、BabyBERTaは学習中にマスクされていないトークンを予測することはなく、unmask_probはゼロに設定されています。

性能

BabyBertaは、子供向け入力から文法知識を学習するために開発されました。その文法知識は、Zorroテストスイートを使用して評価されました。最良のモデルは全体的な精度80.3を達成しており、RoBERTa - baseの最新バージョン（2021年10月時点）での全体的な精度82.6と比較できます。これらの値は、CoNLL 2021論文で報告された値とわずかに異なります。これには2つの理由があります。

RoBERTa - baseの性能がわずかに高いのは、以前の評価ではZorroのすべての単語を小文字に変換していたためです。固有名詞の小文字化はRoBERTa - baseにとって有害ですが、BabyBERTaは大文字小文字を区別しないため、この変更の影響を受けません。
Zorroの最新バージョンでは、「Spanish」のような名詞と形容詞の両方として使えるあいまいな内容語が含まれていないため、BabyBERTaの性能がわずかに低下しました。

Zorroでの全体的な精度：

モデル名	精度 (全体的なスコアリング)	精度 (MLM - スコアリング)
[BabyBERTa - 1][link - BabyBERTa - 1]	80.3	79.9
[BabyBERTa - 2][link - BabyBERTa - 2]	78.6	78.2
[BabyBERTa - 3][link - BabyBERTa - 3]	74.5	78.1

追加情報

このモデルは、現在UIUC言語と学習ラボに所属するPhilip Huebnerによって学習されました。

詳細はこちらで確認できます。

[link - BabyBERTa - 1]: https://huggingface.co/phueb/BabyBERTa - 1 [link - BabyBERTa - 2]: https://huggingface.co/phueb/BabyBERTa - 2 [link - BabyBERTa - 3]: https://huggingface.co/phueb/BabyBERTa - 3