G

Guwenbert Base

由ethanyt開發
基於文言文預訓練的RoBERTa模型,適用於古籍文本處理任務
下載量 2,122
發布時間 : 3/2/2022

模型概述

這是一個專門針對文言文預訓練的RoBERTa模型,可用於古籍文本的下游任務處理,如斷句、標點和命名實體識別等

模型特點

文言文專用預訓練
專門針對文言文進行預訓練,優化了古籍文本處理能力
兩階段訓練策略
採用先詞嵌入層訓練後全參數訓練的兩階段策略,提高訓練效果
大規模訓練數據
使用殆知閣古代文獻數據集,包含15,694部典籍,17億字符量

模型能力

古籍文本斷句
古籍文本標點
古籍命名實體識別
文言文語義理解

使用案例

古籍數字化
古籍命名實體識別
識別古籍中的書名、人名、地名等專有名詞
在'古聯杯'評測中獲得第二名,F1值84.63
古籍標點恢復
為無標點的古籍文本自動添加標點符號
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase