guwenbert-large開源模型 - 助力古文處理任務，免費實現文言文智能應用

首頁

Guwenbert Large

由ethanyt開發

基於文言文預訓練的RoBERTa模型，適用於古文處理任務

大型語言模型中文開源協議:Apache-2.0 #文言文預訓練 #古籍命名實體識別 #古文斷句標點

下載量 217

發布時間 : 3/2/2022

模型概述

這是一個專門針對文言文預訓練的RoBERTa模型，可用於古文相關的下游任務如斷句、標點、命名實體識別等。

模型特點

文言文專用預訓練

專門針對文言文進行預訓練，能更好地理解古文語義和語法結構

兩階段訓練策略

採用先訓練詞嵌入層再訓練全部參數的兩階段策略，提高訓練效果

大規模訓練數據

使用殆知閣古代文獻數據集，包含15,694本文言文書籍，17億字符

模型能力

古文語義理解

古文填充掩碼預測

古文斷句

古文標點

古文命名實體識別

使用案例

古籍處理

古籍命名實體識別

識別古籍中的書名、人名等實體

在'古聯杯'古籍命名實體識別評測中獲得第二名，F1值84.63

古文斷句標點

為無標點古文自動添加標點符號

🚀 GuwenBERT

GuwenBERT是一個在文言文上預訓練的RoBERTa模型。它可以針對下游任務進行微調，例如斷句、標點標註、命名實體識別等，為文言文相關的自然語言處理任務提供了強大的支持。

🚀 快速開始

你可以按照以下代碼示例來使用GuwenBERT：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("ethanyt/guwenbert-large")

model = AutoModel.from_pretrained("ethanyt/guwenbert-large")

✨ 主要特性

基於RoBERTa架構，在大量文言文數據上進行預訓練。
可針對多種下游任務進行微調，如斷句、標點標註、命名實體識別等。

📦 安裝指南

文檔中未提及具體安裝命令，若需使用可參考transformers庫的安裝方式。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("ethanyt/guwenbert-large")

model = AutoModel.from_pretrained("ethanyt/guwenbert-large")

📚 詳細文檔

模型描述

GuwenBERT是一個在文言文上預訓練的RoBERTa模型。你可以對GuwenBERT進行微調以用於下游任務，如斷句、標點標註、命名實體識別等。關於RoBERTa的更多信息，請查看RoBERTa的官方倉庫。

訓練數據

訓練數據為殆知閣古代文獻數據集，包含15,694本文言文書籍，涵蓋佛教、儒家、醫學、歷史、子部、易部、經藏、史藏、道教和集藏等領域。其中76%的書籍帶有標點。總字符數為17億（1,743,337,673）。所有繁體字都已轉換為簡體字。詞彙表由此數據集構建而成，大小為23,292。

訓練過程

模型使用hfl/chinese-roberta-wwm-ext-large進行初始化，然後採用兩步策略進行預訓練。第一步，模型僅更新詞嵌入進行掩碼語言模型（MLM）學習，直至收斂。第二步，在訓練過程中更新所有參數。模型在4塊V100 GPU上訓練了120K步（第一步20K步，第二步100K步），批次大小為2,048，序列長度為512。使用的優化器是Adam，學習率為1e - 4，adam - betas為(0.9, 0.98)，adam - eps為1e - 6，權重衰減為0.01，學習率在5K步內進行熱身，之後線性衰減。