Ancient - Greek - BERT開源模型 - 免費用於古希臘語詞性標註與形態分析

首頁

Ancient Greek BERT

由pranaydeeps開發

首個也是唯一可用的古希臘語子詞BERT模型，在詞性標註和形態分析任務上達到最先進的微調後性能。

大型語言模型

Transformers

#古希臘語處理 #形態分析SOTA #歷史文本挖掘

下載量 214

發布時間 : 3/2/2022

模型概述

基於BERT架構的古希臘語預訓練語言模型，專門用於處理古希臘語文本的詞性標註和形態分析任務。

模型特點

首個古希臘語BERT

這是首個專門針對古希臘語開發的BERT模型，填補了該領域的空白。

最先進的形態分析性能

在詞性標註和形態分析任務上達到超過90%的準確率，表現優於現有方法。

多源訓練數據

整合了多個權威古希臘語語料庫，包括First1KGreek、珀爾修斯數字圖書館等。

預訓練權重可用

提供預訓練好的模型權重，便於下游任務微調。

模型能力

古希臘語文本理解

詞性標註

形態分析

語言建模

使用案例

古典文獻研究

古籍數字化處理

自動分析古希臘文獻的詞性和形態特徵

準確率超過90%

語言學分析

古希臘語形態學研究

系統分析古希臘語的詞形變化規律

🚀 古希臘語BERT

這是首個且唯一可用的古希臘語子詞BERT模型！該模型在詞性標註和形態分析的微調後達到了最先進的水平。它為標準的12層、768維BERT-base模型提供了預訓練權重。

在我們的GitHub倉庫中，你可以找到使用該模型以及對其進行詞性標註微調的腳本。

請參考我們的論文："A Pilot Study for BERT Language Modelling and Morphological Analysis for Ancient and Medieval Greek"。該論文發表於第五屆文化遺產、社會科學、人文與文學計算語言學聯合研討會（LaTeCH - CLfL 2021）。

古希臘語相關圖片

🚀 快速開始

安裝依賴

pip install transformers
pip install unicodedata
pip install flair

從HuggingFace模型中心直接使用

from transformers import AutoTokenizer, AutoModel
tokeniser = AutoTokenizer.from_pretrained("pranaydeeps/Ancient-Greek-BERT")
model = AutoModel.from_pretrained("pranaydeeps/Ancient-Greek-BERT")

✨ 主要特性

首個且唯一可用的古希臘語子詞BERT模型。
在詞性標註和形態分析的微調後達到了最先進的水平。
為標準的12層、768維BERT - base模型提供預訓練權重。

📦 安裝指南

安裝所需的依賴庫，使用以下命令：

pip install transformers
pip install unicodedata
pip install flair

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel
tokeniser = AutoTokenizer.from_pretrained("pranaydeeps/Ancient-Greek-BERT")
model = AutoModel.from_pretrained("pranaydeeps/Ancient-Greek-BERT")

📚 詳細文檔

詞性/形態分析微調

關於微調的代碼和詳細信息，請參考GitHub倉庫。

訓練數據

該模型從AUEB NLP Group's Greek BERT初始化，隨後在來自First1KGreek項目、Perseus數字圖書館、PROIEL樹庫和Gorman樹庫的單語數據上進行訓練。

訓練和評估細節

按照AUEB NLP Group's Greek BERT的建議，對希臘語進行標準的去重音和小寫處理。

該模型在4個NVIDIA Tesla V100 16GB GPU上訓練了80個epoch，最大序列長度為512，在保留的測試集上的困惑度為4.8。

在所有3個樹庫上進行詞性標註和形態分析的微調時，該模型也取得了最先進的結果，平均準確率超過90%。如有更多問題，請查閱我們的論文或聯繫我。

📄 許可證

文檔中未提及許可證相關信息。

📚 引用

如果你在研究中使用了古希臘語BERT，請引用以下論文：

@inproceedings{ancient-greek-bert,
author = {Singh, Pranaydeep and Rutten, Gorik and Lefever, Els},
title = {A Pilot Study for BERT Language Modelling and Morphological Analysis for Ancient and Medieval Greek},
year = {2021},
booktitle = {The 5th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2021)}
}