🚀 ACGVoc2vec
ACGVoc2vec模型專注於動漫領域的句子相似度任務,基於sentence-transformers結構,通過在動漫相關數據集上微調預訓練權重,能夠生成融合領域知識的文本特徵向量,讓相關文本在向量空間中的距離更接近。
🚀 快速開始
若你已安裝sentence-transformers,使用此模型將十分便捷:
pip install -U sentence-transformers
之後,你可以按如下方式使用該模型:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('OysterQAQ/ACGVoc2vec')
embeddings = model.encode(sentences)
print(embeddings)
✨ 主要特性
- 結構與預訓練權重:採用sentence-transformers結構,並使用其distiluse-base-multilingual-cased-v2預訓練權重。
- 微調訓練:以5e-5的學習率在動漫相關語句對數據集下進行微調,損失函數為MultipleNegativesRankingLoss。
- 豐富的數據集:涵蓋Bangumi、pixiv、AnimeList、維基百科、moegirl等多個來源的動漫數據,經過爬取、清洗和處理後得到8000w對文本對(還在持續增加)。
- 訓練參數:batchzise=80,訓練了20個epoch,使模型權重適應動漫領域問題空間。
- 特徵向量優勢:生成的文本特徵向量融合了領域知識,相關文本距離更接近,如作品與登場人物,或來自同一作品的登場人物。
📚 詳細文檔
數據集詳情
- Bangumi:包含動畫日文名 - 動畫中文名、動畫日文名 - 簡介、動畫中文名 - 簡介、動畫中文名 - 標籤、動畫日文名 - 角色、動畫中文名 - 角色、聲優日文名 - 聲優中文名等多種文本對。
- pixiv:包含標籤日文名 - 標籤中文名。
- AnimeList:包含動畫日文名 - 動畫英文名。
- 維基百科:包含動畫日文名 - 動畫中文名、動畫日文名 - 動畫英文名、中英日詳情頁h2標題及其對應文本、簡介多語言對照(中日英)、動畫名 - 簡介(中日英)。
- moegirl:包含動畫中文名的簡介 - 簡介、動畫中文名 + 小標題 - 對應內容。
模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: DistilBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
(2): Dense({'in_features': 768, 'out_features': 512, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)
模型使用示例
基礎用法
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('OysterQAQ/ACGVoc2vec')
embeddings = model.encode(sentences)
print(embeddings)
模型信息表格
屬性 |
詳情 |
模型類型 |
基於sentence-transformers的微調模型 |
訓練數據 |
Bangumi、pixiv、AnimeList、維基百科、moegirl等動漫相關數據集 |
預訓練權重 |
distiluse-base-multilingual-cased-v2 |
學習率 |
5e-5 |
損失函數 |
MultipleNegativesRankingLoss |
訓練輪數 |
20個epoch |
批次大小 |
80 |
模型小部件示例
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
widget:
source_sentence: "亞絲娜"
sentences:
- "火影忍者"
- "Sword Art Online"
- "結城明日奈"
- "アスナ"