🚀 希伯来语交叉编码器模型
本模型可用于零样本分类任务,为希伯来语相关的文本处理提供了有效的解决方案,能帮助用户快速对文本进行分类和相关性判断。
🚀 快速开始
安装
本模型可通过sentence_transformers
或transformers
库进行使用,确保你已经安装了这些库:
pip install sentence-transformers transformers
✨ 主要特性
- 多库支持:既可以使用
sentence_transformers
库调用,也能直接通过transformers
库使用。
- 零样本分类:支持零样本分类任务,无需大量标注数据即可对文本进行分类。
📦 安装指南
使用pip
安装所需的库:
pip install sentence-transformers transformers
💻 使用示例
基础用法
from sentence_transformers import CrossEncoder
model = CrossEncoder('HeTree/HeCross')
scores = model.predict([('כמה אנשים חיים בברלין?', 'ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.'),
('כמה אנשים חיים בברלין?', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.')])
print(scores)
高级用法
使用transformers
库的AutoModel
直接调用模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
model = AutoModelForSequenceClassification.from_pretrained('HeTree/HeCross')
tokenizer = AutoTokenizer.from_pretrained('HeTree/HeCross')
features = tokenizer(['כמה אנשים חיים בברלין?', 'כמה אנשים חיים בברלין?'],
['ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.'],
padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
scores = sigmoid(model(**features).logits)
print(scores)
零样本分类用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification", model='HeTree/HeCross')
sent = "בשבוע שעבר שדרגתי את גרסת הטלפון שלי ."
candidate_labels = ["נייד לשיחות", "אתר", "חיוב חשבון", "גישה לחשבון בנק"]
res = classifier(sent, candidate_labels)
print(res)
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
希伯来语交叉编码器模型 |
训练数据 |
HeTree/MevakerConcTree |
管道标签 |
零样本分类 |
引用
如果你在研究中使用了HeCross模型,请引用 Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language。
@article{shalumov2024mevaker,
title={Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language},
author={Vitaly Shalumov and Harel Haskey and Yuval Solaz},
year={2024},
eprint={2403.09719},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本模型采用Apache-2.0许可证。