開源 BabyBERTa-3 模型 - 助力語言習得研究，基於兒童英語語料訓練

首頁

Babyberta 3

由phueb開發

BabyBERTa 是基於 RoBERTa 的輕量級版本，專為語言習得研究設計，訓練數據為 500 萬單詞的美國英語兒童導向輸入語料。

大型語言模型

Transformers

英語開源協議:MIT #兒童語言習得 #輕量級RoBERTa #語法知識評估

下載量 22

發布時間 : 3/2/2022

模型概述

BabyBERTa 是一個輕量級的語言模型，基於 RoBERTa 架構，專為研究兒童語言習得而開發。它能夠在單臺配備單個 GPU 的桌面電腦上運行，無需高性能計算基礎設施。

模型特點

輕量級設計

模型專為在單臺配備單個 GPU 的桌面電腦上運行而設計，無需高性能計算基礎設施。

兒童導向輸入

訓練數據為 500 萬單詞的美國英語兒童導向輸入語料，適合語言習得研究。

語法知識學習

模型專為從兒童導向輸入中學習語法知識而開發，通過 Zorro 測試套件進行評估。

訓練優化

在訓練過程中從不預測未掩碼標記（unmask_prob 參數設置為零）。

模型能力

語言建模

語法知識學習

兒童語言習得研究

使用案例

語言習得研究

兒童語言發展研究

使用 BabyBERTa 分析兒童導向輸入中的語法知識學習過程。

在 Zorro 測試套件上達到 80.3 的整體準確率。

🚀 BabyBERTA

BabyBERTA是一個輕量級的語言模型，基於500萬個美式英語兒童導向輸入詞彙訓練而成。它專為語言習得研究設計，可在配備單GPU的普通桌面設備上運行，無需高性能計算基礎設施。

🚀 快速開始

加載分詞器

BabyBERTA在訓練時使用了 add_prefix_space=True 參數，因此使用默認的分詞器設置無法正常工作。例如，要加載BabyBERTa - 1的分詞器，可以按以下方式加載：

tokenizer = RobertaTokenizerFast.from_pretrained("phueb/BabyBERTa-1",
                                                 add_prefix_space=True)

超參數

具體細節請參考論文。所有提供的模型均以16的批量大小訓練了400K步。重要的是，BabyBERTa在訓練期間從不預測未掩碼的標記，即 unmask_prob 設置為零。

性能

BabyBerta旨在從兒童導向輸入中學習語法知識。其語法知識使用 Zorro 測試套件進行評估。最佳模型的整體準確率達到80.3，與RoBERTa - base相當，後者在Zorro的最新版本（截至2021年10月）上的整體準確率為82.6。這兩個值與 CoNLL 2021論文中報告的值略有不同，原因如下：

RoBERTa - base的性能略高，因為作者之前在評估前將Zorro中的所有單詞轉換為小寫。專有名詞的小寫處理對RoBERTa - base不利，因為RoBERTa - base可能是在主要為標題大小寫的專有名詞上進行訓練的。相比之下，由於BabyBERTa不區分大小寫，其性能不受此變化的影響。
Zorro的最新版本不再包含諸如 “Spanish” 這樣既可以是名詞又可以是形容詞的歧義內容詞，這導致BabyBERTa的性能略有下降。

Zorro上的整體準確率

模型名稱	整體評分準確率	MLM評分準確率
[BabyBERTa - 1][link - BabyBERTa - 1]	80.3	79.9
[BabyBERTa - 2][link - BabyBERTa - 2]	78.6	78.2
[BabyBERTa - 3][link - BabyBERTa - 3]	74.5	78.1

額外信息

該模型由 Philip Huebner 訓練，他目前就職於 UIUC語言與學習實驗室。更多信息請見此處。

[link - BabyBERTa - 1]: https://huggingface.co/phueb/BabyBERTa - 1 [link - BabyBERTa - 2]: https://huggingface.co/phueb/BabyBERTa - 2 [link - BabyBERTa - 3]: https://huggingface.co/phueb/BabyBERTa - 3