H

HTML Pruner Phi 3.8B

由zstanjj開發
用於HTML在RAG系統中比純文本更適合建模檢索結果的HTML修剪模型
下載量 319
發布時間 : 10/16/2024

模型概述

該模型專注於處理HTML格式的檢索結果,通過無損HTML清理和基於塊樹的兩步HTML修剪技術,優化RAG系統中的知識檢索效率。

模型特點

無損HTML清理
僅刪除完全不相關的內容並壓縮冗餘結構,保留原始HTML中的所有語義信息
基於塊樹的兩步HTML修剪
第一步使用嵌入模型計算塊的分數,第二步使用路徑生成模型,實現高效HTML修剪
HTML格式優化
專門針對RAG系統優化HTML格式的檢索結果,提高知識檢索效率

模型能力

HTML文檔清理
HTML內容修剪
語義信息保留
RAG系統優化

使用案例

信息檢索
網頁內容精簡
從複雜HTML網頁中提取關鍵信息,去除冗餘內容
獲得更簡潔且保留語義的HTML內容
RAG系統知識格式化
為RAG系統準備HTML格式的外部知識源
提高RAG系統的檢索效率和準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase