science-keyword-classification開源模型 - 精準分類NASA科學關鍵詞，提升元數據可用性

首頁

Science Keyword Classification

由nasa-impact開發

基於INDUS模型微調，用於對NASA通用元數據存儲庫中的科學關鍵詞進行分類，提升地球觀測元數據的可訪問性和組織性。

文本分類

Transformers

英語開源協議:Apache-2.0 #極端多標籤分類 #NASA元數據處理 #焦點損失優化

下載量 131

發布時間 : 10/11/2024

模型概述

該模型在極端多標籤分類環境下工作，能夠處理大量潛在標籤並應對標籤頻率不平衡問題，通過預測相關關鍵詞來優化NASA地球觀測元數據的組織。

模型特點

極端多標籤分類

能夠處理大量潛在標籤（關鍵詞）的分類問題，並且可以應對標籤頻率不平衡的情況。

分層數據拆分

數據集基於provider-id進行拆分，確保訓練集、驗證集和測試集之間的平衡表示。

優化的焦點損失

使用焦點損失（γ=2）替代交叉熵損失，通過關注難以分類的樣本來解決標籤不平衡問題，顯著提升性能指標。

模型能力

科學關鍵詞分類

極端多標籤預測

元數據組織優化

使用案例

地球觀測數據管理

NASA元數據關鍵詞自動標註

為NASA通用元數據存儲庫中的科學數據自動分配相關關鍵詞

提高元數據的可發現性和組織效率

🚀 科學關鍵詞分類模型

本項目對 INDUS 模型進行了微調，用於對美國國家航空航天局（NASA）通用元數據存儲庫（CMR）中的科學關鍵詞進行分類。該項目旨在通過在極端多標籤分類環境中預測相關關鍵詞，提高地球觀測元數據的可訪問性和組織性。

🚀 快速開始

我們對 INDUS 模型進行微調，以實現從 NASA 的通用元數據存儲庫（CMR）中對科學關鍵詞進行分類。項目目標是在極端多標籤分類場景下，通過預測相關關鍵詞，提升地球觀測元數據的可訪問性和組織性。

✨ 主要特性

極端多標籤分類：能夠處理大量潛在標籤（關鍵詞）的分類問題，並且可以應對標籤頻率不平衡的情況。
分層拆分：數據集基於 provider-id 進行拆分，以確保訓練集、驗證集和測試集之間的平衡表示。
性能提升：評估了不同聚焦參數（γ）的焦點損失，與交叉熵損失和之前的模型相比，在加權精度、召回率、F1 分數和 Jaccard 相似度方面有顯著提升。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

在從模型獲得預測結果後，我們可以使用 model.config.id2label 字典將預測的標籤索引映射到它們的實際名稱。

# Example usage
predicted_indices = [0, 2, 5] # top 3
predicted_labels = [model.config.id2label[idx] for idx in predicted_indices]
print(predicted_labels)

📚 詳細文檔

模型概述

屬性	詳情
基礎模型	INDUS，針對多標籤分類進行了微調
損失函數	模型使用焦點損失而非傳統的交叉熵損失，通過關注難以分類的樣本來解決標籤不平衡問題
數據集	NASA 的 CMR 元數據，經過過濾以去除重複項和不相關標籤，得到一個包含 42,474 條記錄和 3,240 個標籤的數據集。你可以在此處找到該數據集