🚀 移動應用分類
本項目的移動應用分類模型基於 BigBird 架構,能夠將移動應用描述準確分類到 Google Play 商店的 6 個類別中,為應用分類提供了高效且準確的解決方案。
🚀 快速開始
你可以按照以下步驟使用這個模型進行移動應用描述的分類:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
tokenizer = AutoTokenizer.from_pretrained("nsi319/bigbird-roberta-base-finetuned-app")
model = AutoModelForSequenceClassification.from_pretrained("nsi319/bigbird-roberta-base-finetuned-app")
classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
classifier("From scores to signings, the ESPN App is here to keep you updated. Never miss another sporting moment with up-to-the-minute scores, latest news & a range of video content. Sign in and personalise the app to receive alerts for your teams and leagues. Wherever, whenever; the ESPN app keeps you connected.")
'''Output'''
[{'label': 'Sports', 'score': 0.9983325600624084}]
✨ 主要特性
- 長序列處理能力:基於 BigBird 稀疏注意力機制的 Transformer 架構,能夠處理長度達 4,096 個標記的輸入序列,突破了傳統 Transformer 模型在長序列處理上的限制。
- 精準分類:經過微調的 google/bigbird-roberta-base 模型,可以將移動應用描述準確分類到 6 個 Google Play 商店類別中。
- 高準確率:在測試集上達到了 0.8966 的準確率,F1 分數最高達到 0.8964259037209702,表現出良好的分類性能。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
tokenizer = AutoTokenizer.from_pretrained("nsi319/bigbird-roberta-base-finetuned-app")
model = AutoModelForSequenceClassification.from_pretrained("nsi319/bigbird-roberta-base-finetuned-app")
classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
classifier("From scores to signings, the ESPN App is here to keep you updated. Never miss another sporting moment with up-to-the-minute scores, latest news & a range of video content. Sign in and personalise the app to receive alerts for your teams and leagues. Wherever, whenever; the ESPN app keeps you connected.")
'''Output'''
[{'label': 'Sports', 'score': 0.9983325600624084}]
高級用法
文檔未提及高級用法相關內容,故跳過此部分。
📚 詳細文檔
模型描述
BigBird 是一種基於稀疏注意力機制的 Transformer 模型,它將基於 Transformer 的模型(如 BERT)擴展到更長的序列。該模型能夠處理長度達 4,096 個標記的輸入序列。
google/bigbird-roberta-base 模型經過微調,可將移動應用描述分類到 6 個 Google Play 商店類別 中的一個。該模型在 9000 個英文應用描述樣本以及 Google Play 上可用的相關應用類別上進行了訓練。
微調細節
該模型進行了 5 個輪次的微調,批次大小為 16,學習率為 2e-05,最大序列長度為 1024。由於這是一個分類任務,模型使用交叉熵損失函數進行訓練。模型在第 4 個輪次後達到了最佳評估 F1 分數 0.8964259037209702,在測試集上的準確率為 0.8966。
侷限性
訓練數據僅包含來自 6 個 Google Play 商店類別的應用,分別是教育、娛樂、生產力、體育、新聞與雜誌以及攝影。
🔧 技術細節
文檔未提供更詳細的技術細節內容,故跳過此章節。
📄 許可證
本項目採用 MIT 許可證。