SPhilBertaオープンソースモデル - 古典文献学を無料でサポート、ラテン語と古代ギリシャ語の言語をまたいだ引用を識別

ホーム

Sphilberta

bowphsによって開発

SPhilBERTaは古典文献学専用に設計された文変換モデルで、ラテン語と古代ギリシャ語テキスト間の言語間引用を識別します。

テキスト埋め込み

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #言語間引用認識 #古典文献処理 #多言語文埋め込み

ダウンロード数 1,328

リリース時間 : 8/24/2023

モデル概要

このモデルはPhilBERTaモデルを基に、知識蒸留法で訓練され、古代ギリシャ語、ラテン語、英語の文類似度タスクに特化しています。

モデル特徴

言語間引用認識

ラテン語と古代ギリシャ語テキスト間の言語間引用関係を識別するために特別設計

古典文献学最適化

古典文献学研究のために体系的に最適化された初の言語モデル

知識蒸留訓練

ReimersとGurevychが提案した知識蒸留法で訓練

モデル能力

文埋め込み生成

言語間文類似度計算

古典テキスト分析

使用事例

古典文献研究

言語間引用検出

古代ギリシャ文献とラテン文献間の相互引用関係を識別

研究者が古典文献間の相互影響を発見するのに役立つ

テキスト類似性分析

異なる古典テキスト間の類似性を比較

テキストの伝承と影響関係の研究に使用

🚀 SPhilBerta

論文 Exploring Language Models for Classical Philology は、古典文献学のための最先端の言語モデルを体系的に提供する最初の試みです。PhilBERTaを基盤として、私たちはSPhilBERTaというSentence Transformerモデルを導入しました。このモデルは、ラテン語と古代ギリシャ語のテキスト間のクロス言語参照を識別するためのものです。私たちは、Reimers and Gurevych (2020) が提案した知識蒸留法を採用しています。私たちの論文はこちらで確認できます。

🚀 クイックスタート

このモデルは、古典文献学におけるラテン語と古代ギリシャ語のテキスト間のクロス言語参照を識別するために開発されたSentence Transformerモデルです。以下に使用方法を紹介します。

✨ 主な機能

ラテン語と古代ギリシャ語のテキスト間のクロス言語参照を識別する。
知識蒸留法を用いて訓練されたSentence Transformerモデル。

📦 インストール

このモデルを使用するには、sentence-transformers または transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install sentence-transformers
# または
pip install transformers

💻 使用例

基本的な使用法

Sentence-Transformersを使用する場合

sentence-transformers をインストールしている場合、以下のようにモデルを使用できます。

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)

HuggingFace Transformersを使用する場合

sentence-transformers を使用せずに、HuggingFace Transformersを直接使用することもできます。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

🔗 関連情報

問い合わせ

何か質問や問題があれば、こちらまでお気軽にご連絡ください。

引用

@incollection{riemenschneiderfrank:2023b,
    author = "Riemenschneider, Frederick and Frank, Anette",
    title = "{Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient Greek Literature}",
    year = "2023",
    url = "https://arxiv.org/abs/2308.12008",
    note = "to appear",
    publisher = "Association for Computational Linguistics",
    booktitle = "Proceedings of the First Workshop on Ancient Language Processing",
    address = "Varna, Bulgaria"
}

情報テーブル

| 属性 | 详情 |
|------|------|
| パイプラインタグ | 文の類似度 |
| 対応言語 | 多言語、古代ギリシャ語、英語、ラテン語 |
| ライセンス | Apache-2.0 |
| タグ | sentence-transformers、sentence-similarity |