模型概述

vlT5模型是基於T5架構的關鍵詞生成模型，通過科學論文摘要與標題的聯合訓練，能夠根據摘要內容生成精確但不一定完整的關鍵短語。

模型特點

可遷移性

模型能適應不同領域和文本類型，具有較強的遷移學習能力。

混合生成能力

兼具抽取式和生成式能力，能生成精確但不一定完整的關鍵短語。

多語言支持

原生支持波蘭語和英語，對其他語言也有一定表現。

模型能力

關鍵詞生成

文本摘要

多語言處理

使用案例

學術研究

科學論文關鍵詞提取

從科學論文摘要中自動生成描述文章內容的關鍵詞

通常生成3-5個關鍵詞

文本處理

新聞摘要關鍵詞提取

從新聞文本中提取關鍵信息

許可證：cc-by-4.0
語言：

波蘭語
英語
數據集：
posmac
任務標籤：文本生成
任務參數：
禁止重複n元組大小=3
束搜索數=4
標籤：
關鍵詞生成
文本分類
其他

交互示例：

文本："關鍵詞：我們的vlT5模型是基於谷歌提出的Transformer編碼器-解碼器架構的關鍵詞生成模型(https://huggingface.co/t5-base)。該模型通過科學論文摘要與標題的聯合訓練，能根據摘要內容生成精確但不一定完整的關鍵短語。"
示例標題："英文示例1"
文本："關鍵詞：通過gamma參數每經過step_size個epoch對學習率進行衰減。需注意該衰減可能與此調度器外部的其他學習率調整同時發生。當last_epoch=-1時，將初始學習率設為lr。"
示例標題："英文示例2"
文本："關鍵詞：1965年斯坦福大學開發的Dendral專家系統是人工智能與機器學習領域的重大突破。該系統旨在自動化分析鑑定有機化合物中未知分子的結構，其研究成果成為計算機首次在專業期刊發表的科學發現。"
示例標題："波蘭語示例"
文本："關鍵詞：經濟學家分析指出，儘管節日總體支出增加，但根據微觀經濟理論，聖誕禮物交換會導致無謂損失。該損失計算為禮物實際支出與受贈者心理價位之差，2001年僅美國就造成40億美元損失。這一現象常被用於討論現行微觀經濟理論的潛在缺陷，其他無謂損失還包括節日環境負擔及禮品淪為'白象'帶來的維護成本。"
示例標題："西班牙語示例"

評估指標：

F1值
精確率
召回率

VoiceLab NLP標誌

基於T5的短文本關鍵詞提取

我們的vlT5模型是基於谷歌Transformer架構(https://huggingface.co/t5-base)的編碼器-解碼器關鍵詞生成模型。該模型在科學論文語料庫上訓練，通過論文摘要與標題的組合預測關鍵詞集合，僅憑摘要即可生成描述文章內容的精確（但不一定完整）的關鍵短語。

vlT5-base-keywords生成的關鍵詞：編碼器-解碼器架構，關鍵詞生成

演示模型結果（不同生成方法，各語言獨立模型）：

我們的vlT5模型是基於谷歌Transformer架構的編碼器-解碼器關鍵詞生成模型。該模型在科學論文語料庫上訓練，通過論文摘要與標題的組合預測關鍵詞集合。

vlT5-base-keywords生成的關鍵詞：編碼器-解碼器架構，vlT5模型，關鍵詞生成，科學論文語料庫

vlT5特性

最大優勢在於模型的可遷移性，能適應不同領域和文本類型。侷限性在於文本長度和關鍵詞數量需接近訓練數據：摘要長度的文本通常生成3-5個關鍵詞，兼具抽取式和生成式能力。較長文本需分塊處理。

概覽

基礎模型：t5-base
支持語言：波蘭語、英語（其他語言表現尚可）
訓練數據：POSMAC語料庫
在線演示：https://nlp-demo-1.voicelab.ai/
研究論文：《基於文本生成轉換器的短文本關鍵詞提取》，ACIIDS 2022

語料庫

模型訓練使用POSMAC語料庫（波蘭開放科學元數據語料庫），包含CURLICAT項目中216,214篇科學論文摘要。

學科領域	文獻量	含關鍵詞文獻
工程與技術科學	58,974	57,165
社會科學	58,166	41,799
農業科學	29,811	15,492
人文科學	22,755	11,497
基礎自然科學	13,579	9,185
人文與社會科學交叉	12,809	7,063
醫學與健康科學	6,030	3,913
醫學健康與社會科學交叉	828	571
人文/醫學健康/社會科學交叉	601	455
工程技術與人文學科交叉	312	312

分詞器

沿用原版plT5實現，採用50k詞表的sentencepiece一元模型進行子詞切分。

使用示例

from transformers import T5Tokenizer, T5ForConditionalGeneration

model = T5ForConditionalGeneration.from_pretrained("Voicelab/vlt5-base-keywords")
tokenizer = T5Tokenizer.from_pretrained("Voicelab/vlt5-base-keywords")

task_prefix = "關鍵詞： "
inputs = [
    "BBC記者在烏克蘭西部Vorokhta採訪Christina Katrakis獲悉，有家庭反映從切爾諾貝利附近村莊撤離時遭俄軍射擊，其車輛貼有白旗和'車內有兒童'的標識。",
    "通過gamma參數每經過step_size個epoch對學習率進行衰減。需注意該衰減可能與此調度器外部的其他學習率調整同時發生。",
    "您好，我想點一份薩拉米披薩。"
]

for sample in inputs:
    input_sequences = [task_prefix + sample]
    input_ids = tokenizer(
        input_sequences, return_tensors="pt", truncation=True
    ).input_ids
    output = model.generate(input_ids, no_repeat_ngram_size=3, num_beams=4)
    predicted = tokenizer.decode(output[0], skip_special_tokens=True)
    print(sample, "\n --->", predicted)

推理配置

實驗表明最佳生成參數為no_repeat_ngram_size=3, num_beams=4

性能對比

方法	排名	微觀指標			宏觀指標
		精確率	召回率	F1值	精確率	召回率	F1值
extremeText	1	0.175	0.038	0.063	0.007	0.004	0.005
vlT5kw	1	0.345	0.076	0.124	0.054	0.047	0.050
	5	0.318	0.237	0.271	0.143	0.140	0.141