🚀 🤗 + neuraly - 意大利語BERT情感分析模型
本模型可對意大利語句子進行情感分析,藉助先進的機器學習技術,為意大利語情感理解提供高效、準確的解決方案。
🚀 快速開始
此模型用於對意大利語句子進行情感分析。它基於 bert-base-italian-cased 實例進行訓練,並在一個意大利語推文數據集上進行微調,在該數據集上達到了 82% 的準確率。
✨ 主要特性
- 基於預訓練的意大利語 BERT 模型進行微調,具有較高的準確性。
- 能夠對意大利語句子進行情感分析。
💻 使用示例
基礎用法
import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("neuraly/bert-base-italian-cased-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("neuraly/bert-base-italian-cased-sentiment")
sentence = 'Huggingface è un team fantastico!'
input_ids = tokenizer.encode(sentence, add_special_tokens=True)
tensor = torch.tensor(input_ids).long()
tensor = tensor.unsqueeze(0)
logits, = model(tensor)
logits = logits.squeeze(0)
proba = nn.functional.softmax(logits, dim=0)
negative, neutral, positive = proba
📚 詳細文檔
預期用途和限制
如何使用
上述代碼示例展示瞭如何使用該模型進行情感分析。
限制和偏差
該模型的一個可能缺點(或偏差)與它在推文數據集上訓練有關,這帶來了一些侷限性。該數據集的領域與足球運動員和球隊密切相關,但令人驚訝的是,它在其他主題上也表現良好。
訓練數據
我們通過合併從 Sentipolc EVALITA 2016 獲取的兩個推文數據集來訓練該模型。總體而言,該數據集包含 45K 條預處理後的推文。
模型的權重來自 bert-base-italian-cased 的預訓練實例。非常感謝該團隊的出色工作!
訓練過程
預處理
由於 BERT 能夠很好地捕捉複雜文本序列的語義,我們儘量保留了儘可能多的信息。總體而言,我們僅從每條推文中刪除了 @提及、網址 和 電子郵件,並保留了其他大部分內容。
硬件
- GPU:Nvidia GTX1080ti
- CPU:AMD Ryzen7 3700x 8c/16t
- 內存:64GB DDR4
超參數
- 優化器:學習率為 2e-5、epsilon 為 1e-8 的 AdamW
- 最大訓練輪數:5
- 批次大小:32
- 提前停止:啟用,耐心值為 1
在 3 個訓練輪次後觸發了提前停止。
評估結果
該模型在測試集上的總體準確率達到了 82%。
測試集是整個數據集的 20% 劃分。
關於我們
Neuraly 是一家年輕而充滿活力的初創公司,致力於通過最先進的機器學習和數據科學技術設計由人工智能驅動的解決方案和服務。您可以在我們的 網站 上了解更多關於我們是誰以及我們的業務內容。
致謝
感謝 Hugging Face 團隊的慷慨支持,我們可以從他們的 S3 存儲中下載該模型,並通過他們的推理 API 進行即時測試 🤗。
📄 許可證
本項目採用 MIT 許可證。
屬性 |
詳情 |
模型類型 |
意大利語BERT情感分析模型 |
訓練數據 |
來自 Sentipolc EVALITA 2016 的兩個推文數據集,共 45K 條預處理後的推文 |