SyllaBERTa開源模型 - 免費處理古希臘語文本的高效利器

首頁

Syllaberta

由Ericu950開發

SyllaBERTa是一款實驗性基於Transformer的掩碼語言模型，專為處理古希臘語文本設計，採用音節級分詞。

大型語言模型

Transformers

其他#音節級分詞 #古希臘語處理 #韻律分析

下載量 19

發布時間 : 4/25/2025

模型概述

該模型特別適用於處理涉及韻律、格律和押韻的任務，基於RoBERTa架構進行自定義配置。

模型特點

音節級分詞

採用音節而非單詞或字符進行分詞，特別適合處理古希臘語的韻律和格律特徵。

自定義分詞器

支持雙元音合併及希臘語正字法現象，能正確處理古希臘語文本的音節分割。

專業領域優化

專為古典文學研究設計，在涉及韻律分析的任務中表現優異。

模型能力

古希臘語文本理解

掩碼語言建模

音節級文本生成

韻律分析

使用案例

古典文學研究

韻律分析

分析古希臘詩歌的韻律結構

能準確識別音節模式並預測缺失音節

文本修復

修復古代文獻中的缺失或損壞部分

基於上下文預測最可能的音節序列

語言學教育

語言學習輔助

幫助學生理解古希臘語的音節結構

提供音節級分解和預測

🚀 SyllaBERTa：用於古希臘語的基於音節的RoBERTa模型

SyllaBERTa 是一個基於Transformer架構的實驗性掩碼語言模型（MLM），它在古希臘語文本上進行訓練，並且以音節為單位進行分詞。該模型專門用於處理涉及韻律、格律和押韻的任務。

✨ 主要特性

基於Transformer架構的掩碼語言模型，在古希臘語文本上訓練。
以音節為單位進行分詞，而非傳統的單詞或字符。
能夠處理韻律、格律和押韻相關的任務。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("Ericu950/SyllaBERTa", trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained("Ericu950/SyllaBERTa", trust_remote_code=True)

# Encode a sentence
text = "Κατέβην χθὲς εἰς Πειραιᾶ μετὰ Γλαύκωνος τοῦ Ἀρίστωνος"
tokens = tokenizer.tokenize(text)
print(tokens)

# Insert a mask at random
import random
tokens[random.randint(0, len(tokens)-1)] = tokenizer.mask_token
masked_text = tokenizer.convert_tokens_to_string(tokens)

# Predict masked token
inputs = tokenizer(masked_text, return_tensors="pt", padding=True, truncation=True)
inputs.pop("token_type_ids", None)
with torch.no_grad():
    outputs = model(**inputs)

# Fetch prediction
logits = outputs.logits
mask_token_index = (inputs['input_ids'] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
top_tokens = logits[0, mask_token_index].topk(5, dim=-1).indices.squeeze(0)
predicted = tokenizer.convert_ids_to_tokens(top_tokens.tolist())

print("Top predictions:", predicted)

運行上述代碼，應該會輸出以下內容：

Original tokens: ['κα', 'τέ', 'βην', 'χθὲ', 'σεἰσ', 'πει', 'ραι', 'ᾶ', 'με', 'τὰγ', 'λαύ', 'κω', 'νοσ', 'τοῦ', 'ἀ', 'ρίσ', 'τω', 'νοσ']

Masked at position 6
Masked text: κα τέ βην χθὲ σεἰσ πει [MASK] ᾶ με τὰγ λαύ κω νοσ τοῦ ἀ ρίσ τω νοσ

Top 5 predictions for masked token:
ραι          (score: 23.12)
ρα           (score: 14.69)
ραισ         (score: 12.63)
σαι          (score: 12.43)
ρη           (score: 12.26)

📚 詳細文檔

模型概述

屬性	詳情
基礎架構	RoBERTa（自定義配置）
詞彙表大小	42,042個音節標記
隱藏層大小	768
層數	12
注意力頭數量	12
中間層大小	3,072
最大序列長度	514
預訓練目標	掩碼語言建模（MLM）
優化器	AdamW
損失函數	交叉熵，標記掩碼概率為15%