🚀 🇩🇪 德語語義V3 🇩🇪
本模型是 German_Semantic_STS_V2 的繼任者,帶來了許多超酷的新特性!V3 知識儲備豐富,而 German_Semantic_V3b 則更注重性能。歡迎對模型提出反饋,告訴我們你接下來的期望。
注意:要正確運行此模型,請查看“使用方法”。
使用此模型可以創建德語語義句子嵌入。
✨ 主要特性
模型信息
屬性 |
詳情 |
模型類型 |
德語語義V3(以及 German_Semantic_V3b) |
基礎模型 |
aari1995/gbert-large-2 |
指標 |
spearman_cosine |
管道標籤 |
句子相似度 |
許可證 |
apache - 2.0 |
主要更新和獨特賣點
- 靈活性:使用靈活的序列長度和嵌入截斷進行訓練,靈活性是該模型的核心特性。不過,較小的維度會在質量上有輕微的折損。
- 序列長度:可嵌入多達 8192 個標記(是 V2 和其他模型的 16 倍)。
- 套娃嵌入:模型針對從 1024 到 64 的嵌入大小進行訓練,允許你存儲小得多的嵌入,且質量損失很小。
- 僅支持德語:此模型僅支持德語,擁有豐富的德國文化知識和德語主題知識。這有助於模型通過其分詞器更高效地學習,更好地處理較短的查詢,並且在許多場景中更具細微差別。
- 更新的知識和高質量數據:該模型的基礎是 deepset 的 gbert - large。通過在 occiglot 的 10 億個德語優質網絡標記上進行第二階段預訓練,確保了最新的知識。
- 抗拼寫錯誤和大小寫:該模型經過訓練,對輕微的拼寫錯誤和大小寫不敏感,這在訓練期間會導致基準性能稍弱,但嵌入的魯棒性更高。
- 池化函數:從平均池化轉向使用 CLS 標記。在第二階段預訓練後,通常學習效果更好,並且具有更高的靈活性。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
matryoshka_dim = 1024
model = SentenceTransformer("aari1995/German_Semantic_V3", trust_remote_code=True, truncate_dim=matryoshka_dim)
sentences = [
'Eine Flagge weht.',
'Die Flagge bewegte sich in der Luft.',
'Zwei Personen beobachten das Wasser.',
]
embeddings = model.encode(sentences, convert_to_tensor=True).half()
similarities = model.similarity(embeddings, embeddings)
📚 詳細文檔
常見問題解答
⚠️ 重要提示
以下是關於模型的常見問題及解答,幫助你更好地瞭解和使用該模型。
Q:這個模型比 V2 好嗎?
A:在靈活性方面,絕對更好。在數據方面也是如此,因為它的知識更新。在基準測試方面,兩者有所不同,V3 更適合長文本,而 V2 更適合短文本。需要注意的是,許多基準測試也不能很好地涵蓋文化知識。如果你不介意模型對 2020 年初之後的發展情況不瞭解,建議使用 German_Semantic_V3b。
Q:V3 和 V3b 有什麼區別?
A:V3 在基準測試中稍差,而 V3b 的知識截止到 2020 年,所以具體使用哪個模型取決於你的使用場景。
如果你追求極致性能,不太在意近期的發展,建議選擇 V3b。
如果你願意在基準測試中犧牲幾分,希望模型瞭解 2020 年以來發生的事情(選舉、新冠疫情、其他文化事件等),建議使用這個模型。
另一個明顯的區別是,V3 的餘弦相似度範圍更廣,從 - 1 到 1(但大多數情況下,最小值超過 - 0.2)。而 V3b 與 V2 更一致,相似度範圍在 0 到 1 左右。此外,V3 使用 cls_pooling,而 V3b 使用 mean_pooling。
Q:與多語言模型相比,該模型的性能如何?
A:有很多優秀的多語言模型,適用於許多場景。這個模型的優勢在於其文化知識以及對德國人和德國行為的瞭解。
Q:減小嵌入大小會有什麼權衡?
A:一般來說,從 1024 維降到 512 維時,權衡很小(1%)。降到 64 維時,可能會有高達 3% 的下降。
評估
- 存儲比較:

- 基準測試:即將推出。
後續計劃
German_Semantic_V3_Instruct:引導你的嵌入朝著自選方面發展。計劃於 2024 年推出。
📄 許可證
本模型使用的許可證為 apache - 2.0。
感謝與鳴謝
此模型的創意、訓練和實現由 Aaron Chibb 完成。