⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。
チャンクとは?
ナレッジベースにインポートされたドキュメントは、チャンクと呼ばれる小さなセグメントに分割されます。チャンクとは、大きな本を章や段落に整理するようなものです。大きなテキストブロックから特定の情報をすぐに見つけることはできませんが、適切に整理されたセクションなら効率的に検索できます。 ユーザーが質問すると、システムはこれらのチャンクから関連情報を検索し、LLMにコンテキストとして提供します。チャンク化がなければ、クエリごとにドキュメント全体を処理することになり、遅くて非効率的です。 主要なチャンクパラメータ-
区切り文字:テキストを分割する文字またはシーケンス。例えば、
\n\nは段落区切りで分割し、\nは改行で分割します。区切り文字はチャンク化の際に削除されます。例えば、Aを区切り文字として使用すると、CBACDはCBとCDに分割されます。情報の損失を避けるために、ドキュメント内に自然に出現しない非コンテンツ文字を使用してください。 - 最大チャンク長:各チャンクの最大サイズ(文字数)。この制限を超えるテキストは、区切り文字の設定に関係なく強制的に分割されます。
汎用モード vs 親子モード
チャンクモードは、ナレッジベースを作成した後は変更できません。ただし、区切り文字や最大チャンク長などのチャンク設定はいつでも調整できます。
モードの概要
- 汎用モード
- 親子モード
汎用モードでは、すべてのチャンクが同じ設定を共有します。マッチしたチャンクは検索結果として直接返されます。チャンク設定区切り文字と最大チャンク長に加えて、チャンクのオーバーラップを設定して、隣接するチャンク間で重複する文字数を指定できます。これにより、意味的なつながりが保持され、重要な情報がチャンクの境界で分断されることを防ぎます。例えば、50文字のオーバーラップを設定すると、あるチャンクの最後の50文字が次のチャンクの最初の50文字としても表示されます。
比較表
| 項目 | 汎用モード | 親子モード |
|---|---|---|
| チャンク戦略 | 単一階層:すべてのチャンクが同じ設定を使用 | 二階層:親チャンクと子チャンクで別々の設定 |
| 検索ワークフロー | マッチしたチャンクが直接返される | 子チャンクがクエリのマッチングに使用され、親チャンクがより広いコンテキストを提供するために返される |
| 対応するインデックス方式 | 高品質、経済的 | 高品質のみ |
| 最適な用途 | 用語集やFAQなどのシンプルで自己完結したコンテンツ | 技術マニュアルや研究論文などコンテキストが重要な情報密度の高いドキュメント |
チャンク化前のテキスト前処理
テキストをチャンクに分割する前に、不要なコンテンツをクリーンアップして検索品質を向上させることができます。-
連続する空白、改行、タブを置換
- 3つ以上の連続した改行 → 2つの改行
- 複数の空白 → 単一の空白
- タブ、フォームフィード、特殊なUnicode空白 → 通常の空白
-
すべてのURLとメールアドレスを削除
意味のある検索にほとんど寄与しないURLとメールアドレスを除去します。この設定は全文モードでは無視されます。
サマリー自動生成を有効にする
セルフホスト環境でのみ利用可能です。