🚀 希伯來語交叉編碼器模型
本模型可用於零樣本分類任務,為希伯來語相關的文本處理提供了有效的解決方案,能幫助用戶快速對文本進行分類和相關性判斷。
🚀 快速開始
安裝
本模型可通過sentence_transformers
或transformers
庫進行使用,確保你已經安裝了這些庫:
pip install sentence-transformers transformers
✨ 主要特性
- 多庫支持:既可以使用
sentence_transformers
庫調用,也能直接通過transformers
庫使用。
- 零樣本分類:支持零樣本分類任務,無需大量標註數據即可對文本進行分類。
📦 安裝指南
使用pip
安裝所需的庫:
pip install sentence-transformers transformers
💻 使用示例
基礎用法
from sentence_transformers import CrossEncoder
model = CrossEncoder('HeTree/HeCross')
scores = model.predict([('כמה אנשים חיים בברלין?', 'ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.'),
('כמה אנשים חיים בברלין?', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.')])
print(scores)
高級用法
使用transformers
庫的AutoModel
直接調用模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
model = AutoModelForSequenceClassification.from_pretrained('HeTree/HeCross')
tokenizer = AutoTokenizer.from_pretrained('HeTree/HeCross')
features = tokenizer(['כמה אנשים חיים בברלין?', 'כמה אנשים חיים בברלין?'],
['ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.'],
padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
scores = sigmoid(model(**features).logits)
print(scores)
零樣本分類用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification", model='HeTree/HeCross')
sent = "בשבוע שעבר שדרגתי את גרסת הטלפון שלי ."
candidate_labels = ["נייד לשיחות", "אתר", "חיוב חשבון", "גישה לחשבון בנק"]
res = classifier(sent, candidate_labels)
print(res)
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
希伯來語交叉編碼器模型 |
訓練數據 |
HeTree/MevakerConcTree |
管道標籤 |
零樣本分類 |
引用
如果你在研究中使用了HeCross模型,請引用 Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language。
@article{shalumov2024mevaker,
title={Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language},
author={Vitaly Shalumov and Harel Haskey and Yuval Solaz},
year={2024},
eprint={2403.09719},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型採用Apache-2.0許可證。