HeCrossオープンソースヘブライ語クロスエンコーダモデル - 無料でデプロイし、ゼロサンプル分類タスクを支援

ホーム

Hecross

HeTreeによって開発

これはヘブライ語用のクロスエンコーダーモデルで、ゼロショット分類タスクをサポートします。

テキスト分類

Transformers

その他オープンソースライセンス:Apache-2.0 #ヘブライ語処理 #ゼロショット分類 #クロスエンコーダー

ダウンロード数 22

リリース時間 : 2/18/2024

モデル概要

このモデルは主にヘブライ語のテキスト処理タスクに使用され、特にゼロショット分類シナリオに適しています。特定のカテゴリのトレーニングデータがなくてもテキストを分類できます。

モデル特徴

ヘブライ語サポート

ヘブライ語テキストに最適化されたモデル

ゼロショット分類

特定カテゴリのトレーニングデータなしで分類可能

クロスエンコード能力

2つのテキストを同時にエンコードし、それらの関連性スコアを計算可能

モデル能力

テキスト分類

使用事例

カスタマーサービス

自動チケット分類

顧客問い合わせを自動的に各部門に分類

チケット処理効率の向上

コンテンツ管理

ニュース分類

ヘブライ語ニュースを自動的に各テーマに分類

コンテンツ整理効率の向上

🚀 ヘブライ語クロスエンコーダーモデル

このモデルは、ヘブライ語に特化したクロスエンコーダーモデルで、ゼロショット分類などのタスクに利用できます。

基本情報

属性	详情
パイプラインタグ	ゼロショット分類
訓練データセット	HeTree/MevakerConcTree
ライセンス	apache-2.0

🚀 クイックスタート

以下に、このモデルの使用方法をいくつかのコード例で紹介します。

💻 使用例

基本的な使用法

from sentence_transformers import CrossEncoder
model = CrossEncoder('HeTree/HeCross')

# Scores (already after sigmoid)
scores = model.predict([('כמה אנשים חיים בברלין?', 'ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.'), 
                        ('כמה אנשים חיים בברלין?', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.')])
print(scores)

高度な使用法

Transformersライブラリを直接使用してモデルを利用する方法です。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np

# Function that applies sigmoid to a score
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

model = AutoModelForSequenceClassification.from_pretrained('HeTree/HeCross')
tokenizer = AutoTokenizer.from_pretrained('HeTree/HeCross')
features = tokenizer(['כמה אנשים חיים בברלין?', 'כמה אנשים חיים בברלין?'],
                     ['ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.'],
                     padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
    scores = sigmoid(model(**features).logits)
    print(scores)

ゼロショット分類の使用法

このモデルはゼロショット分類にも利用できます。

from transformers import pipeline
classifier = pipeline("zero-shot-classification", model='HeTree/HeCross')
sent = "בשבוע שעבר שדרגתי את גרסת  הטלפון שלי ."
candidate_labels = ["נייד לשיחות", "אתר", "חיוב חשבון", "גישה לחשבון בנק"]
res = classifier(sent, candidate_labels)
print(res)

📄 ライセンス

このモデルはapache-2.0ライセンスの下で提供されています。

📚 引用情報

もしあなたの研究でHeCrossを使用する場合は、以下の論文を引用してください。 Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language

@article{shalumov2024mevaker,
      title={Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language}, 
      author={Vitaly Shalumov and Harel Haskey and Yuval Solaz},
      year={2024},
      eprint={2403.09719},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}