🚀 SPhilBerta
論文 Exploring Language Models for Classical Philology は、古典文献学のための最先端の言語モデルを体系的に提供する最初の試みです。PhilBERTaを基盤として、私たちはSPhilBERTaというSentence Transformerモデルを導入しました。このモデルは、ラテン語と古代ギリシャ語のテキスト間のクロス言語参照を識別するためのものです。私たちは、Reimers and Gurevych (2020) が提案した知識蒸留法を採用しています。私たちの論文はこちらで確認できます。
🚀 クイックスタート
このモデルは、古典文献学におけるラテン語と古代ギリシャ語のテキスト間のクロス言語参照を識別するために開発されたSentence Transformerモデルです。以下に使用方法を紹介します。
✨ 主な機能
- ラテン語と古代ギリシャ語のテキスト間のクロス言語参照を識別する。
- 知識蒸留法を用いて訓練されたSentence Transformerモデル。
📦 インストール
このモデルを使用するには、sentence-transformers
または transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install sentence-transformers
pip install transformers
💻 使用例
基本的な使用法
Sentence-Transformersを使用する場合
sentence-transformers
をインストールしている場合、以下のようにモデルを使用できます。
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)
HuggingFace Transformersを使用する場合
sentence-transformers
を使用せずに、HuggingFace Transformersを直接使用することもできます。
from transformers import AutoTokenizer, AutoModel
import torch
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0]
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
sentences = ['This is an example sentence', 'Each sentence is converted']
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
print("Sentence embeddings:")
print(sentence_embeddings)
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
🔗 関連情報
問い合わせ
何か質問や問題があれば、こちら までお気軽にご連絡ください。
引用
@incollection{riemenschneiderfrank:2023b,
author = "Riemenschneider, Frederick and Frank, Anette",
title = "{Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient Greek Literature}",
year = "2023",
url = "https://arxiv.org/abs/2308.12008",
note = "to appear",
publisher = "Association for Computational Linguistics",
booktitle = "Proceedings of the First Workshop on Ancient Language Processing",
address = "Varna, Bulgaria"
}
情報テーブル
| 属性 | 详情 |
|------|------|
| パイプラインタグ | 文の類似度 |
| 対応言語 | 多言語、古代ギリシャ語、英語、ラテン語 |
| ライセンス | Apache-2.0 |
| タグ | sentence-transformers、sentence-similarity |