🚀 shlm-grc-en
このモデルは、古代ギリシャ語と英語のテキストに対して、共有ベクトル空間での文埋め込みを生成します。これにより、異なる言語間の文の類似性を評価することが可能になります。
🚀 クイックスタート
モデルの概要
このモデルは、英語と古代ギリシャ語の文埋め込みを生成するために開発されました。ベースモデルは、Heidelberg - Boston @ SIGTYP 2024 Shared Task: Enhancing Low - Resource Language Analysis With Character - Aware Hierarchical Transformers (arXiv)で説明されているHLMアーキテクチャの修正版を使用しています。また、Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge Distillation (arXiv)で説明されている多言語知識蒸留法とデータセットを用いて学習されています。このモデルは、英語と古代ギリシャ語のテキストを埋め込むためにBAAI/bge - base - en - v1.5
から蒸留されました。
注意事項
⚠️ 重要提示
このモデルは現在、sentence - transformersライブラリの最新バージョンと互換性がありません。現時点では、HuggingFace Transformersを直接使用するか、以下のfork版のsentence - transformersを使用してください。
https://github.com/kevinkrahn/sentence-transformers
✨ 主な機能
- 英語と古代ギリシャ語の文を共有ベクトル空間に埋め込むことができます。
- 多言語知識蒸留法を用いて学習されており、効果的な文埋め込みを生成します。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールしてください。
pip install transformers torch sentence-transformers
💻 使用例
基本的な使用法
Sentence - Transformersを使用する場合
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('kevinkrahn/shlm-grc-en')
embeddings = model.encode(sentences)
print(embeddings)
HuggingFace Transformersを使用する場合
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output):
return model_output[0][:,0]
sentences = ['This is an English sentence', 'Ὁ Παρθενών ἐστιν ἱερὸν καλὸν τῆς Ἀθήνης.']
model = AutoModel.from_pretrained('kevinkrahn/shlm-grc-en', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('kevinkrahn/shlm-grc-en', trust_remote_code=True)
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = cls_pooling(model_output)
print("Sentence embeddings:")
print(sentence_embeddings)
📚 ドキュメント
このモデルを使用する際には、以下の論文を引用してください。
@inproceedings{riemenschneider-krahn-2024-heidelberg,
title = "Heidelberg-Boston @ {SIGTYP} 2024 Shared Task: Enhancing Low-Resource Language Analysis With Character-Aware Hierarchical Transformers",
author = "Riemenschneider, Frederick and
Krahn, Kevin",
editor = "Hahn, Michael and
Sorokin, Alexey and
Kumar, Ritesh and
Shcherbakov, Andreas and
Otmakhova, Yulia and
Yang, Jinrui and
Serikov, Oleg and
Rani, Priya and
Ponti, Edoardo M. and
Murado{\u{g}}lu, Saliha and
Gao, Rena and
Cotterell, Ryan and
Vylomova, Ekaterina",
booktitle = "Proceedings of the 6th Workshop on Research in Computational Linguistic Typology and Multilingual NLP",
month = mar,
year = "2024",
address = "St. Julian's, Malta",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.sigtyp-1.16",
pages = "131--141",
}
@inproceedings{krahn-etal-2023-sentence,
title = "Sentence Embedding Models for {A}ncient {G}reek Using Multilingual Knowledge Distillation",
author = "Krahn, Kevin and
Tate, Derrick and
Lamicela, Andrew C.",
editor = "Anderson, Adam and
Gordin, Shai and
Li, Bin and
Liu, Yudong and
Passarotti, Marco C.",
booktitle = "Proceedings of the Ancient Language Processing Workshop",
month = sep,
year = "2023",
address = "Varna, Bulgaria",
publisher = "INCOMA Ltd., Shoumen, Bulgaria",
url = "https://aclanthology.org/2023.alp-1.2",
pages = "13--22",
}
📄 ライセンス
このモデルはMITライセンスの下で公開されています。