🚀 🇩🇪 德语语义V3 🇩🇪
本模型是 German_Semantic_STS_V2 的继任者,带来了许多超酷的新特性!V3 知识储备丰富,而 German_Semantic_V3b 则更注重性能。欢迎对模型提出反馈,告诉我们你接下来的期望。
注意:要正确运行此模型,请查看“使用方法”。
使用此模型可以创建德语语义句子嵌入。
✨ 主要特性
模型信息
属性 |
详情 |
模型类型 |
德语语义V3(以及 German_Semantic_V3b) |
基础模型 |
aari1995/gbert-large-2 |
指标 |
spearman_cosine |
管道标签 |
句子相似度 |
许可证 |
apache - 2.0 |
主要更新和独特卖点
- 灵活性:使用灵活的序列长度和嵌入截断进行训练,灵活性是该模型的核心特性。不过,较小的维度会在质量上有轻微的折损。
- 序列长度:可嵌入多达 8192 个标记(是 V2 和其他模型的 16 倍)。
- 套娃嵌入:模型针对从 1024 到 64 的嵌入大小进行训练,允许你存储小得多的嵌入,且质量损失很小。
- 仅支持德语:此模型仅支持德语,拥有丰富的德国文化知识和德语主题知识。这有助于模型通过其分词器更高效地学习,更好地处理较短的查询,并且在许多场景中更具细微差别。
- 更新的知识和高质量数据:该模型的基础是 deepset 的 gbert - large。通过在 occiglot 的 10 亿个德语优质网络标记上进行第二阶段预训练,确保了最新的知识。
- 抗拼写错误和大小写:该模型经过训练,对轻微的拼写错误和大小写不敏感,这在训练期间会导致基准性能稍弱,但嵌入的鲁棒性更高。
- 池化函数:从平均池化转向使用 CLS 标记。在第二阶段预训练后,通常学习效果更好,并且具有更高的灵活性。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
matryoshka_dim = 1024
model = SentenceTransformer("aari1995/German_Semantic_V3", trust_remote_code=True, truncate_dim=matryoshka_dim)
sentences = [
'Eine Flagge weht.',
'Die Flagge bewegte sich in der Luft.',
'Zwei Personen beobachten das Wasser.',
]
embeddings = model.encode(sentences, convert_to_tensor=True).half()
similarities = model.similarity(embeddings, embeddings)
📚 详细文档
常见问题解答
⚠️ 重要提示
以下是关于模型的常见问题及解答,帮助你更好地了解和使用该模型。
Q:这个模型比 V2 好吗?
A:在灵活性方面,绝对更好。在数据方面也是如此,因为它的知识更新。在基准测试方面,两者有所不同,V3 更适合长文本,而 V2 更适合短文本。需要注意的是,许多基准测试也不能很好地涵盖文化知识。如果你不介意模型对 2020 年初之后的发展情况不了解,建议使用 German_Semantic_V3b。
Q:V3 和 V3b 有什么区别?
A:V3 在基准测试中稍差,而 V3b 的知识截止到 2020 年,所以具体使用哪个模型取决于你的使用场景。
如果你追求极致性能,不太在意近期的发展,建议选择 V3b。
如果你愿意在基准测试中牺牲几分,希望模型了解 2020 年以来发生的事情(选举、新冠疫情、其他文化事件等),建议使用这个模型。
另一个明显的区别是,V3 的余弦相似度范围更广,从 - 1 到 1(但大多数情况下,最小值超过 - 0.2)。而 V3b 与 V2 更一致,相似度范围在 0 到 1 左右。此外,V3 使用 cls_pooling,而 V3b 使用 mean_pooling。
Q:与多语言模型相比,该模型的性能如何?
A:有很多优秀的多语言模型,适用于许多场景。这个模型的优势在于其文化知识以及对德国人和德国行为的了解。
Q:减小嵌入大小会有什么权衡?
A:一般来说,从 1024 维降到 512 维时,权衡很小(1%)。降到 64 维时,可能会有高达 3% 的下降。
评估
- 存储比较:

- 基准测试:即将推出。
后续计划
German_Semantic_V3_Instruct:引导你的嵌入朝着自选方面发展。计划于 2024 年推出。
📄 许可证
本模型使用的许可证为 apache - 2.0。
感谢与鸣谢
此模型的创意、训练和实现由 Aaron Chibb 完成。