🚀 keyT5. 大版本
keyT5大版本是一款用於從文本中提取關鍵詞的工具,支持俄語,能幫助用戶快速從文本中提取關鍵信息。
項目鏈接
項目狀態

🚀 快速開始
安裝指南
pip install transformers sentencepiece
使用示例
基礎用法
示例代碼返回一個包含關鍵詞的列表,可能存在重複項:
from itertools import groupby
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = "0x7194633/keyt5-large"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
def generate(text, **kwargs):
inputs = tokenizer(text, return_tensors='pt')
with torch.no_grad():
hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
s = tokenizer.decode(hypotheses[0], skip_special_tokens=True)
s = s.replace('; ', ';').replace(' ;', ';').lower().split(';')[:-1]
s = [el for el, _ in groupby(s)]
return s
article = """Reuters сообщил об отмене 3,6 тыс. авиарейсов из-за «омикрона» и погоды
Наибольшее число отмен авиарейсов 2 января пришлось на американские авиакомпании
SkyWest и Southwest, у каждой — более 400 отмененных рейсов. При этом среди
отмененных 2 января авиарейсов — более 2,1 тыс. рейсов в США. Также свыше 6400
рейсов были задержаны."""
print(generate(article, top_p=1.0, max_length=64))
訓練
你可以前往訓練筆記本瞭解更多訓練相關信息:

推理示例
示例標題 |
文本內容 |
冠狀病毒 |
在俄羅斯可能會出現新冠病毒“奧密克戎”的新毒株,這可能導致1月份感染人數上升,俄羅斯人民友誼大學傳染病學系副教授謝爾蓋·沃茲涅先斯基表示。他指出,“德爾塔”變種導致的死亡病例比“奧密克戎”更多,正是在“德爾塔”的背景下出現了最高的死亡率。 |
英國 |
據英國媒體報道,英國國防參謀長海軍上將託尼·拉達金在參觀重型武器庫期間被要求假裝忙碌。命令中說,軍人被要求跑到汽車旁,打開所有艙口、艙門,翻閱操作手冊,檢查車輛,就好像正在進行功能測試以確保設備正常運行一樣。 |
科技 |
要播放音樂,只需按下鍵盤上的按鈕。每個按鍵對應一個特定的樣本——有沙錘聲和類似激光槍射擊的未來主義聲音。從所有這些聲音中可以形成自己的模式,並觀察帶有動畫幾何圖形的可視化效果。有趣的是,按下空格鍵可以完全改變屏幕上的外觀、顏色和樣本的聲音。 |
許可證
本項目採用MIT許可證。