B

Bert Chunker 3

tim1900によって開発
BertForTokenClassificationに基づくテキストチャンカーで、構造化および非構造化テキストに適用可能で、特にRAGシナリオ用に最適化されています。
ダウンロード数 1,226
リリース時間 : 2/9/2025

モデル概要

bert-chunker-3はBERTに基づくテキストチャンキングモデルで、テキストブロックの開始マーカーを予測し、スライディングウィンドウを使用して任意のサイズのドキュメントをテキストブロックに分割します。特に検索強化生成(RAG)などのシナリオに適しており、非構造化および乱雑なテキストを良好に処理できます。

モデル特徴

非構造化テキスト処理
非構造化および乱雑なテキストのチャンキングニーズを処理するために特別に最適化されています。
スライディングウィンドウメカニズム
スライディングウィンドウ技術を使用して任意の長さのドキュメントを処理します。
確率閾値調整
prob_thresholdパラメータを使用してチャンキング粒度を柔軟に制御できます。
LLMアノテーションデータ
トレーニングデータは大規模言語モデルによってアノテーション付けされ、モデルの安定性が向上します。

モデル能力

テキストチャンキング
ドキュメント分割
非構造化テキスト処理
RAGシナリオサポート

使用事例

検索強化生成(RAG)
ドキュメント前処理
RAGシステム用にドキュメントをチャンクに分割します。
検索効率と精度を向上させます。
テキスト分析
技術ドキュメント処理
技術ドキュメントを論理的な段落に分割します。
後続の分析と処理を容易にします。
広告コンテンツ分析
広告テキストを意味のあるブロックに分割します。
コンテンツ分類と特徴抽出をサポートします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase