許可證:cc-by-4.0
語言:
- 波蘭語
- 英語
數據集:
- posmac
任務標籤:文本生成
任務參數:
- 禁止重複n元組大小=3
- 束搜索數=4
標籤:
- 關鍵詞生成
- 文本分類
- 其他
交互示例:
- 文本:"關鍵詞:我們的vlT5模型是基於谷歌提出的Transformer編碼器-解碼器架構的關鍵詞生成模型(https://huggingface.co/t5-base)。該模型通過科學論文摘要與標題的聯合訓練,能根據摘要內容生成精確但不一定完整的關鍵短語。"
示例標題:"英文示例1"
- 文本:"關鍵詞:通過gamma參數每經過step_size個epoch對學習率進行衰減。需注意該衰減可能與此調度器外部的其他學習率調整同時發生。當last_epoch=-1時,將初始學習率設為lr。"
示例標題:"英文示例2"
- 文本:"關鍵詞:1965年斯坦福大學開發的Dendral專家系統是人工智能與機器學習領域的重大突破。該系統旨在自動化分析鑑定有機化合物中未知分子的結構,其研究成果成為計算機首次在專業期刊發表的科學發現。"
示例標題:"波蘭語示例"
- 文本:"關鍵詞:經濟學家分析指出,儘管節日總體支出增加,但根據微觀經濟理論,聖誕禮物交換會導致無謂損失。該損失計算為禮物實際支出與受贈者心理價位之差,2001年僅美國就造成40億美元損失。這一現象常被用於討論現行微觀經濟理論的潛在缺陷,其他無謂損失還包括節日環境負擔及禮品淪為'白象'帶來的維護成本。"
示例標題:"西班牙語示例"
評估指標:

基於T5的短文本關鍵詞提取
我們的vlT5模型是基於谷歌Transformer架構(https://huggingface.co/t5-base)的編碼器-解碼器關鍵詞生成模型。該模型在科學論文語料庫上訓練,通過論文摘要與標題的組合預測關鍵詞集合,僅憑摘要即可生成描述文章內容的精確(但不一定完整)的關鍵短語。
vlT5-base-keywords生成的關鍵詞:編碼器-解碼器架構,關鍵詞生成
演示模型結果(不同生成方法,各語言獨立模型):
我們的vlT5模型是基於谷歌Transformer架構的編碼器-解碼器關鍵詞生成模型。該模型在科學論文語料庫上訓練,通過論文摘要與標題的組合預測關鍵詞集合。
vlT5-base-keywords生成的關鍵詞:編碼器-解碼器架構,vlT5模型,關鍵詞生成,科學論文語料庫
vlT5特性
最大優勢在於模型的可遷移性,能適應不同領域和文本類型。侷限性在於文本長度和關鍵詞數量需接近訓練數據:摘要長度的文本通常生成3-5個關鍵詞,兼具抽取式和生成式能力。較長文本需分塊處理。
概覽
語料庫
模型訓練使用POSMAC語料庫(波蘭開放科學元數據語料庫),包含CURLICAT項目中216,214篇科學論文摘要。
學科領域 |
文獻量 |
含關鍵詞文獻 |
工程與技術科學 |
58,974 |
57,165 |
社會科學 |
58,166 |
41,799 |
農業科學 |
29,811 |
15,492 |
人文科學 |
22,755 |
11,497 |
基礎自然科學 |
13,579 |
9,185 |
人文與社會科學交叉 |
12,809 |
7,063 |
醫學與健康科學 |
6,030 |
3,913 |
醫學健康與社會科學交叉 |
828 |
571 |
人文/醫學健康/社會科學交叉 |
601 |
455 |
工程技術與人文學科交叉 |
312 |
312 |
分詞器
沿用原版plT5實現,採用50k詞表的sentencepiece一元模型進行子詞切分。
使用示例
from transformers import T5Tokenizer, T5ForConditionalGeneration
model = T5ForConditionalGeneration.from_pretrained("Voicelab/vlt5-base-keywords")
tokenizer = T5Tokenizer.from_pretrained("Voicelab/vlt5-base-keywords")
task_prefix = "關鍵詞: "
inputs = [
"BBC記者在烏克蘭西部Vorokhta採訪Christina Katrakis獲悉,有家庭反映從切爾諾貝利附近村莊撤離時遭俄軍射擊,其車輛貼有白旗和'車內有兒童'的標識。",
"通過gamma參數每經過step_size個epoch對學習率進行衰減。需注意該衰減可能與此調度器外部的其他學習率調整同時發生。",
"您好,我想點一份薩拉米披薩。"
]
for sample in inputs:
input_sequences = [task_prefix + sample]
input_ids = tokenizer(
input_sequences, return_tensors="pt", truncation=True
).input_ids
output = model.generate(input_ids, no_repeat_ngram_size=3, num_beams=4)
predicted = tokenizer.decode(output[0], skip_special_tokens=True)
print(sample, "\n --->", predicted)
推理配置
實驗表明最佳生成參數為no_repeat_ngram_size=3, num_beams=4
性能對比
方法 |
排名 |
微觀指標 |
|
|
宏觀指標 |
|
|
|
|
精確率 |
召回率 |
F1值 |
精確率 |
召回率 |
F1值 |
extremeText |
1 |
0.175 |
0.038 |
0.063 |
0.007 |
0.004 |
0.005 |
vlT5kw |
1 |
0.345 |
0.076 |
0.124 |
0.054 |
0.047 |
0.050 |
|
5 |
0.318 |
0.237 |
0.271 |
0.143 |
0.140 |
0.141 |
(表格其他部分省略)
許可協議
知識共享署名4.0國際許可
引用文獻
若使用本模型,請引用:
Pęzik, P.等 (2023). 《基於文本生成語言模型的可遷移關鍵詞提取技術》. 見:ICCS 2023會議論文集. Springer.
或
Piotr Pęzik等, 《基於文本生成轉換器的短文本關鍵詞提取》, ACIIDS 2022
開發團隊
本模型由Voicelab.ai自然語言處理團隊開發
聯繫我們:https://voicelab.ai/contact/