rubert-tiny2-sentence-compressionオープンソースモデル - 無料でロシア語の文章を圧縮し、核心的な意味を損なうことなし！

ホーム

Rubert Tiny2 Sentence Compression

cointegratedによって開発

rubert-tiny2アーキテクチャに基づくロシア語の文圧縮モデルで、文の核心的な意味に影響しない単語を予測して削除します。

テキスト生成

Transformers

#ロシア語文圧縮 #抽出型要約 #意味保持圧縮

ダウンロード数 613

リリース時間 : 5/19/2022

モデル概要

このモデルは抽出型の文要約生成に使用され、単語の削除可能性を予測することで文を圧縮します。生成された圧縮結果は文法に準拠しない場合がありますが、核心的な意味は保持されます。

モデル特徴

意味保持圧縮

確率予測により非中核単語を削除し、原文の意味を最大限に保持

調整可能な圧縮強度

閾値または保持比率パラメータで圧縮度合いを制御可能

軽量アーキテクチャ

rubert-tiny2ベースの最適化モデルで、リソース制約のある環境に適しています

モデル能力

ロシア語文圧縮

抽出型要約生成

テキスト簡素化処理

使用事例

テキスト処理

ニュース要約生成

ニュース文から核心情報を抽出

圧縮後の文は重要な事実を保持

ドキュメント簡素化

テキスト長を短縮しつつ可読性を維持

より簡潔なドキュメントバージョンを生成

## 🚀 ルベルト・タイニー2文圧縮モデル

このモデルは、文の圧縮（抽出型文要約とも呼ばれます）に使用できます。各単語について、その単語を文から削除しても意味に大きな影響を与えないかどうかを予測します。結果として得られる文は文法的でないことが多いですが、依然として有用です。

## 🚀 クイックスタート
このモデルは、論文 [Sentence compression for Russian: dataset and baselines](https://www.dialog-21.ru/media/5106/kuvshinovat-050.pdf) のデータセット（データは [こちら](https://drive.google.com/drive/folders/1WWqq187pN4aHHbRUwlhaKW4JP1FZ_9zh) で見つけることができます）でファインチューニングされた [rubert-tiny2]() です。

## 💻 使用例

### 基本的な使用法
```python
import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer
model_name = 'cointegrated/rubert-tiny2-sentence-compression'
model = AutoModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)


def compress(text, threshold=0.5, keep_ratio=None):
    """ Compress a sentence by removing the least important words.
    Parameters:
        threshold: cutoff for predicted probabilities of word removal
        keep_ratio: proportion of words to preserve
    By default, threshold of 0.5 is used.
    """
    with torch.inference_mode():
        tok = tokenizer(text, return_tensors='pt').to(model.device)
        proba = torch.softmax(model(**tok).logits, -1).cpu().numpy()[0, :, 1]
    if keep_ratio is not None:
        threshold = sorted(proba)[int(len(proba) * keep_ratio)]
    kept_toks = []
    keep = False
    prev_word_id = None
    for word_id, score, token in zip(tok.word_ids(), proba, tok.input_ids[0]):
        if word_id is None:
            keep = True
        elif word_id != prev_word_id:
            keep = score < threshold
        if keep:
            kept_toks.append(token)
        prev_word_id = word_id
    return tokenizer.decode(kept_toks, skip_special_tokens=True)


text = 'Кроме того, можно взять идею, рожденную из сердца, и выразить ее в рамках одной '\
    'из этих структур, без потери искренности идеи и смысла песни.'
    
print(compress(text))
print(compress(text, threshold=0.3))
print(compress(text, threshold=0.1))
# можно взять идею, рожденную из сердца, и выразить ее в рамках одной из этих структур.
# можно взять идею, рожденную из сердца выразить ее в рамках одной из этих структур.
# можно взять идею рожденную выразить структур.

print(compress(text, keep_ratio=0.5))
# можно взять идею, рожденную из сердца выразить ее в рамках структур.