メインコンテンツへスキップ
⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。

チャンクとは?

ナレッジベースにインポートされたドキュメントは、チャンクと呼ばれる小さなセグメントに分割されます。チャンクとは、大きな本を章や段落に整理するようなものです。大きなテキストブロックから特定の情報をすぐに見つけることはできませんが、適切に整理されたセクションなら効率的に検索できます。 ユーザーが質問すると、システムはこれらのチャンクから関連情報を検索し、LLMにコンテキストとして提供します。チャンク化がなければ、クエリごとにドキュメント全体を処理することになり、遅くて非効率的です。 主要なチャンクパラメータ
  • 区切り文字:テキストを分割する文字またはシーケンス。例えば、\n\nは段落区切りで分割し、\nは改行で分割します。
    区切り文字はチャンク化の際に削除されます。例えば、Aを区切り文字として使用すると、CBACDCBCDに分割されます。情報の損失を避けるために、ドキュメント内に自然に出現しない非コンテンツ文字を使用してください。
  • 最大チャンク長:各チャンクの最大サイズ(文字数)。この制限を超えるテキストは、区切り文字の設定に関係なく強制的に分割されます。

汎用モード vs 親子モード

チャンクモードは、ナレッジベースを作成した後は変更できません。ただし、区切り文字や最大チャンク長などのチャンク設定はいつでも調整できます。

モードの概要

汎用モードでは、すべてのチャンクが同じ設定を共有します。マッチしたチャンクは検索結果として直接返されます。チャンク設定区切り文字と最大チャンク長に加えて、チャンクのオーバーラップを設定して、隣接するチャンク間で重複する文字数を指定できます。これにより、意味的なつながりが保持され、重要な情報がチャンクの境界で分断されることを防ぎます。例えば、50文字のオーバーラップを設定すると、あるチャンクの最後の50文字が次のチャンクの最初の50文字としても表示されます。

比較表

項目汎用モード親子モード
チャンク戦略単一階層:すべてのチャンクが同じ設定を使用二階層:親チャンクと子チャンクで別々の設定
検索ワークフローマッチしたチャンクが直接返される子チャンクがクエリのマッチングに使用され、親チャンクがより広いコンテキストを提供するために返される
対応するインデックス方式高品質、経済的高品質のみ
最適な用途用語集やFAQなどのシンプルで自己完結したコンテンツ技術マニュアルや研究論文などコンテキストが重要な情報密度の高いドキュメント

チャンク化前のテキスト前処理

テキストをチャンクに分割する前に、不要なコンテンツをクリーンアップして検索品質を向上させることができます。
  • 連続する空白、改行、タブを置換
    • 3つ以上の連続した改行 → 2つの改行
    • 複数の空白 → 単一の空白
    • タブ、フォームフィード、特殊なUnicode空白 → 通常の空白
  • すべてのURLとメールアドレスを削除
    意味のある検索にほとんど寄与しないURLとメールアドレスを除去します。
    この設定は全文モードでは無視されます。

サマリー自動生成を有効にする

セルフホスト環境でのみ利用可能です。
すべてのチャンクのサマリーを自動生成し、検索性を向上させます。 サマリーも埋め込まれ、検索用にインデックス化されます。サマリーがクエリにマッチすると、対応するチャンクも返されます。 自動生成されたサマリーを手動で編集したり、後で特定のドキュメントのサマリーを再生成することができます。詳細はドキュメントとチャンクの管理を参照してください。
ビジョン対応のLLMを選択すると、チャンクテキストと添付画像の両方に基づいてサマリーが生成されます。

チャンクをプレビュー

プレビューをクリックして、コンテンツがどのようにチャンク化されるかを確認できます。クイックレビュー用に限られた数のチャンクが表示されます。 結果が期待と完全に一致しない場合は、最も近い設定を選択してください。後で手動でチャンクを微調整できます。詳細はドキュメントとチャンクの管理を参照してください。 複数のドキュメントの場合、プレビューパネル上部のファイル名をクリックして、ドキュメントを切り替えることができます。