🚀 ACGVoc2vec
ACGVoc2vec模型专注于动漫领域的句子相似度任务,基于sentence-transformers结构,通过在动漫相关数据集上微调预训练权重,能够生成融合领域知识的文本特征向量,让相关文本在向量空间中的距离更接近。
🚀 快速开始
若你已安装sentence-transformers,使用此模型将十分便捷:
pip install -U sentence-transformers
之后,你可以按如下方式使用该模型:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('OysterQAQ/ACGVoc2vec')
embeddings = model.encode(sentences)
print(embeddings)
✨ 主要特性
- 结构与预训练权重:采用sentence-transformers结构,并使用其distiluse-base-multilingual-cased-v2预训练权重。
- 微调训练:以5e-5的学习率在动漫相关语句对数据集下进行微调,损失函数为MultipleNegativesRankingLoss。
- 丰富的数据集:涵盖Bangumi、pixiv、AnimeList、维基百科、moegirl等多个来源的动漫数据,经过爬取、清洗和处理后得到8000w对文本对(还在持续增加)。
- 训练参数:batchzise=80,训练了20个epoch,使模型权重适应动漫领域问题空间。
- 特征向量优势:生成的文本特征向量融合了领域知识,相关文本距离更接近,如作品与登场人物,或来自同一作品的登场人物。
📚 详细文档
数据集详情
- Bangumi:包含动画日文名 - 动画中文名、动画日文名 - 简介、动画中文名 - 简介、动画中文名 - 标签、动画日文名 - 角色、动画中文名 - 角色、声优日文名 - 声优中文名等多种文本对。
- pixiv:包含标签日文名 - 标签中文名。
- AnimeList:包含动画日文名 - 动画英文名。
- 维基百科:包含动画日文名 - 动画中文名、动画日文名 - 动画英文名、中英日详情页h2标题及其对应文本、简介多语言对照(中日英)、动画名 - 简介(中日英)。
- moegirl:包含动画中文名的简介 - 简介、动画中文名 + 小标题 - 对应内容。
模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: DistilBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
(2): Dense({'in_features': 768, 'out_features': 512, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)
模型使用示例
基础用法
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('OysterQAQ/ACGVoc2vec')
embeddings = model.encode(sentences)
print(embeddings)
模型信息表格
属性 |
详情 |
模型类型 |
基于sentence-transformers的微调模型 |
训练数据 |
Bangumi、pixiv、AnimeList、维基百科、moegirl等动漫相关数据集 |
预训练权重 |
distiluse-base-multilingual-cased-v2 |
学习率 |
5e-5 |
损失函数 |
MultipleNegativesRankingLoss |
训练轮数 |
20个epoch |
批次大小 |
80 |
模型小部件示例
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
widget:
source_sentence: "亚丝娜"
sentences:
- "火影忍者"
- "Sword Art Online"
- "结城明日奈"
- "アスナ"