🚀 T5-base 微調用於情感跨度提取
本項目基於 Google 的 T5 基礎模型,在 推文情感提取數據集 上進行微調,以完成 跨度情感提取 下游任務。所有榮譽歸於 Lorenzo Ampil。
🚀 快速開始
from transformers import AutoModelWithLMHead, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-span-sentiment-extraction")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-span-sentiment-extraction")
def get_sentiment_span(text):
input_ids = tokenizer.encode(text, return_tensors="pt", add_special_tokens=True)
generated_ids = model.generate(input_ids=input_ids, num_beams=1, max_length=80).squeeze()
predicted_span = tokenizer.decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)
return predicted_span
get_sentiment_span("question: negative context: My bike was put on hold...should have known that.... argh total bummer")
get_sentiment_span("question: positive context: On the monday, so i wont be able to be with you! i love you")
✨ 主要特性
- 基於 Google 的 T5 基礎模型,在推文情感提取數據集上進行微調。
- 可用於跨度情感提取下游任務。
📚 詳細文檔
T5 模型詳情
T5 模型由 Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 在 《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》 中提出。摘要如下:
遷移學習是自然語言處理(NLP)中的一種強大技術,它先在數據豐富的任務上預訓練模型,然後在下游任務上進行微調。遷移學習的有效性催生了多種方法、方法論和實踐。在本文中,我們通過引入一個統一的框架,將每個語言問題轉化為文本到文本的格式,探索了 NLP 遷移學習技術的領域。我們的系統研究比較了預訓練目標、架構、無標籤數據集、遷移方法和其他因素在數十個語言理解任務上的表現。通過將我們的探索見解與規模和新的“Colossal Clean Crawled Corpus”相結合,我們在許多涵蓋摘要、問答、文本分類等的基準測試中取得了最先進的結果。為了促進未來 NLP 遷移學習的研究,我們發佈了我們的數據集、預訓練模型和代碼。
下游任務詳情(跨度情感提取) - 數據集 📚
推文情感提取數據集
示例:"My ridiculous dog is amazing." [情感:積極]
每秒都有大量推文傳播,很難判斷特定推文背後的情感是否會對公司或個人的品牌產生積極影響,還是會因負面語氣而損害利潤。在決策和反應瞬息萬變的時代,捕捉語言中的情感非常重要。但是,哪些詞語實際上導致了情感描述呢?在本次競賽中,你需要挑選出反映情感的推文部分(單詞或短語)。
利用這個廣泛的推文數據集,提升你在這個重要領域的技能。努力改進你的技術,在本次競賽中佔據領先地位。推文中哪些詞語支持積極、消極或中性情感?如何使用機器學習工具來做出這種判斷?
在本次競賽中,我們從 Figure Eight 的 Data for Everyone 平臺提取了支持短語。該數據集名為“Sentiment Analysis: Emotion in Text”,包含帶有現有情感標籤的推文,在此根據知識共享署名 4.0 國際許可使用。你在本次競賽中的目標是構建一個模型,能夠查看給定推文的標籤情感,並找出最能支持它的單詞或短語。
免責聲明:本次競賽的數據集包含可能被認為褻瀆、粗俗或冒犯性的文本。
數據集 |
劃分 |
樣本數量 |
TSE |
訓練集 |
23907 |
TSE |
評估集 |
3573 |
模型微調 🏋️
訓練腳本是 Lorenzo Ampil 創建的 此 Colab 筆記本 的略微修改版本,所有榮譽歸於他!
📄 許可證
文檔中未提及相關信息。
由 Manuel Romero/@mrm8488 創建 | LinkedIn
於西班牙用心打造 ♥