SyllaBERTaオープンソースモデル - 古代ギリシャ語テキストを無料で処理するための効率的なツール

ホーム

Syllaberta

Ericu950によって開発

SyllaBERTaは、古代ギリシャ語テキスト処理のために設計された、音節レベル分かち書きを採用した実験的なTransformerベースのマスク言語モデルです。

大規模言語モデル

Transformers

その他#音節レベル分かち書き #古代ギリシャ語処理 #韻律分析

ダウンロード数 19

リリース時間 : 4/25/2025

モデル概要

このモデルは特に韻律、韻脚、押韻に関連するタスクに適しており、RoBERTaアーキテクチャに基づいてカスタム構成されています。

モデル特徴

音節レベル分かち書き

単語や文字ではなく音節で分かち書きを行うため、古代ギリシャ語の韻律や韻脚の特徴を扱うのに特に適しています。

カスタムトークナイザー

二重母音の結合やギリシャ語の正書法現象をサポートし、古代ギリシャ語テキストの音節分割を正確に処理できます。

専門分野最適化

古典文学研究のために特別に設計されており、韻律分析に関連するタスクで優れた性能を発揮します。

モデル能力

古代ギリシャ語テキスト理解

マスク言語モデリング

音節レベルテキスト生成

韻律分析

使用事例

古典文学研究

韻律分析

古代ギリシャ詩の韻律構造を分析

音節パターンを正確に識別し、欠落した音節を予測可能

テキスト修復

古代文献の欠落または損傷部分を修復

文脈に基づいて最も可能性の高い音節シーケンスを予測

言語学教育

言語学習支援

学生が古代ギリシャ語の音節構造を理解するのを支援

音節レベルの分解と予測を提供

🚀 SyllaBERTa: 古代ギリシャ語用の音節ベースのRoBERTa

SyllaBERTa は、古代ギリシャ語のテキストを対象に、音節レベルでトークン化して学習させた、Transformerベースのマスク言語モデル（MLM）の実験的なモデルです。
このモデルは、韻律、音韻、韻を扱うタスクに特化して設計されています。

✨ 主な機能

このモデルは古代ギリシャ語のテキストを音節レベルでトークン化し、韻律、音韻、韻に関するタスクを扱うことができます。

📋 モデル概要

属性	詳細
基本アーキテクチャ	RoBERTa（カスタム設定）
語彙サイズ	42,042個の音節トークン
隠れ層のサイズ	768
層の数	12
アテンションヘッドの数	12
中間層のサイズ	3,072
最大シーケンス長	514
事前学習の目的	マスク言語モデリング（MLM）
オプティマイザ	AdamW
損失関数	15%のトークンマスク確率を持つ交差エントロピー

トークナイザは PreTrainedTokenizer のカスタムサブクラスで、単語や文字ではなく音節を扱います。

各音節をIDにマッピングします。
二合母音のマージやギリシャ語の表記現象をサポートします。
空白で区切られた音節トークンを使用します。

トークン化の例:

入力:
Κατέβην χθὲς εἰς Πειραιᾶ

トークン:
['κα', 'τέ', 'βην', 'χθὲ', 'σεἰσ', 'πει', 'ραι', 'ᾶ']

単語は音節レベルで結合されていることに注意してください。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("Ericu950/SyllaBERTa", trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained("Ericu950/SyllaBERTa", trust_remote_code=True)

# Encode a sentence
text = "Κατέβην χθὲς εἰς Πειραιᾶ μετὰ Γλαύκωνος τοῦ Ἀρίστωνος"
tokens = tokenizer.tokenize(text)
print(tokens)

# Insert a mask at random
import random
tokens[random.randint(0, len(tokens)-1)] = tokenizer.mask_token
masked_text = tokenizer.convert_tokens_to_string(tokens)

# Predict masked token
inputs = tokenizer(masked_text, return_tensors="pt", padding=True, truncation=True)
inputs.pop("token_type_ids", None)
with torch.no_grad():
    outputs = model(**inputs)

# Fetch prediction
logits = outputs.logits
mask_token_index = (inputs['input_ids'] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
top_tokens = logits[0, mask_token_index].topk(5, dim=-1).indices.squeeze(0)
predicted = tokenizer.convert_ids_to_tokens(top_tokens.tolist())

print("Top predictions:", predicted)

このコードを実行すると、以下のような出力が得られます。

Original tokens: ['κα', 'τέ', 'βην', 'χθὲ', 'σεἰσ', 'πει', 'ραι', 'ᾶ', 'με', 'τὰγ', 'λαύ', 'κω', 'νοσ', 'τοῦ', 'ἀ', 'ρίσ', 'τω', 'νοσ']

Masked at position 6
Masked text: κα τέ βην χθὲ σεἰσ πει [MASK] ᾶ με τὰγ λαύ κω νοσ τοῦ ἀ ρίσ τω νοσ

Top 5 predictions for masked token:
ραι          (score: 23.12)
ρα           (score: 14.69)
ραισ         (score: 12.63)
σαι          (score: 12.43)
ρη           (score: 12.26)