メインコンテンツへスキップ
⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。

ドキュメントの管理

ナレッジベース内では、インポートされたすべてのアイテム(ローカルファイル、Notion ページ、またはウェブページなど)がドキュメントとして扱われます。 ドキュメント一覧から、すべてのドキュメントを閲覧・管理し、ナレッジの正確性、関連性、最新性を維持できます。
画面上部のナレッジベース名をクリックすると、他のナレッジベースへ素早く切り替えできます。
ナレッジドキュメントの管理
操作説明
追加新しいドキュメントをインポートします。
チャンク設定の変更ドキュメントのチャンク設定を変更します(チャンク構造を除く)。
各ドキュメントには個別のチャンク設定を持たせることができますが、チャンク構造はナレッジベース全体で共通であり、一度設定すると変更できません。
削除ドキュメントを完全に削除します。削除は元に戻せません。
有効/無効一時的にドキュメントを検索対象に含める/除外します。
Dify Cloud では、一定期間更新または検索に使用されていないドキュメントは、自動的に無効化されパフォーマンスが最適化されます。

非アクティブ期間はプランごとに異なります:
  • Sandbox:7日
  • Professional/Team:30日
Professional および Team プランでは、これらのドキュメントをワンクリックで再有効化できます。
要約を生成ドキュメント内のすべてのチャンクの要約を自動生成します。Summary Auto-Gen が有効になっているセルフホスティング環境でのみ利用可能です。
既存の要約は上書きされます。
アーカイブ/アーカイブ解除検索には不要だが保持しておきたいドキュメントをアーカイブします。アーカイブ済みドキュメントは読み取り専用で、いつでもアーカイブ解除可能です。
編集ドキュメント内のチャンクを編集して、コンテンツを修正します。詳細は チャンクの管理 を参照してください。
名前を変更ドキュメントの名前を変更します。

チャンクの管理

チャンク設定に基づき、すべてのドキュメントは検索の基本単位であるコンテンツチャンクに分割されます。 各ドキュメント内のチャンク一覧からそれらを閲覧・管理し、検索の効率と精度を向上させることができます。
左上のドキュメント名をクリックすると、別のドキュメントへ素早く切り替えられます。
チャンクの管理
操作説明
追加新しいチャンクを1つまたは複数まとめて追加します。

親子分割モードのドキュメントでは、親チャンクと子チャンクの両方を追加可能です。
「チャンクを追加」は Dify Cloud の有料機能です。利用するには Professional または Team プラン へのアップグレードが必要です。
削除チャンクを完全に削除します。削除は元に戻せません。
有効/無効一時的にチャンクを検索対象に含める/除外します。無効化されたチャンクは編集できません。
編集チャンクの内容を修正します。編集されたチャンクには Edited マークが付きます。

親子分割モードを使用するナレッジベースでは:
  • 親チャンクを編集するとき、子チャンクを再生成するか変更せずに保持するかを選択できます。
  • 子チャンクを編集しても、親チャンクは更新されません。
キーワードの追加/編集/削除チャンクにキーワード(最大10個)を追加・編集して検索精度を向上させます。経済的インデックス方式を使用するナレッジベースでのみ利用可能です。
画像添付ファイルの追加/削除ドキュメントから抽出された画像を削除したり、対応するチャンク内に新しい画像をアップロードしたりできます。

抽出された画像のURLはチャンクテキスト内に残りますが、テキストをきれいに保つためにこれらのURLを安全に削除できます。抽出された画像には影響しません。
各チャンクには最大10枚まで画像の添付が可能で、検索時にチャンクと一緒に返されます。この制限を超える画像は抽出されません。

セルフホスティング環境では、環境変数 SINGLE_CHUNK_ATTACHMENT_LIMIT でこの制限を調整できます。
マルチモーダル埋め込みモデル(Vision アイコン付き)を選択すると、抽出された画像も埋め込み・インデックス化され、検索に利用されます。
要約の追加/編集/削除チャンクに要約を追加、編集、または削除します。

要約も埋め込み・インデックス化され、検索に利用されます。要約がクエリにマッチすると、対応するチャンクも返されます。
複数のチャンクに同一の要約を追加することで、グループ検索が可能になり、関連するチャンクをまとめて取得できます(Top K の制限に従います)。

ベストプラクティス

チャンク品質の確認

ドキュメントをチャンク分割した後は、各チャンクを丁寧に確認し、意味的に完結し、検索精度と回答の関連性を最適化できるサイズであることを確認してください。 注意すべき一般的な問題:
  • チャンクが 短すぎる:文脈不足により意味情報が失われ、回答の精度が低下します。
  • チャンクが 長すぎる:不要情報を含み、意味的ノイズを引き起こして検索精度を下げます。
  • チャンクが 意味的に不完全:文や段落の途中で強制的に区切られた結果、検索時に情報が欠落または誤解を招く場合があります。

子チャンクを親チャンクの検索フックとして使用

親子分割モードで分割されたドキュメントでは、システムは子チャンクを検索し、結果として親チャンクを返します。子チャンクを編集しても親チャンクは更新されないため、子チャンクを親チャンクの セマンティックタグ(意味的タグ)検索ヒント として活用できます。 そのためには、子チャンクを キーワード要約ユーザーの一般的な質問 のいずれかに書き換えることを推奨します。 たとえば、親チャンクが技術的な「LEDステータスインジケーター」を扱う場合、子チャンクを次のように設定できます:
  • 点滅、電源が入らない、赤いライト、接続エラー、フリーズ(キーワード)
  • LEDの色の解釈とハードウェアの電源やペアリング問題のトラブルシューティングガイド(要約)
  • 赤いライトが点灯し続けるのはどういう意味ですか?(クエリ)

要約を使用してクエリとコンテンツのギャップを埋める

高品質なインデックス化によりセマンティック検索が可能になりますが、生のチャンクが具体的すぎたり、ノイズが多かったり、構造が複雑すぎてユーザーのクエリとうまく一致しない場合、検索が困難になることがあります。 要約は、チャンクの核心的な意図を明確にする凝縮されたセマンティックレイヤーを提供することで、このギャップを埋めます。 以下の場合に要約を使用してください:
  • ユーザーのクエリがドキュメントの言語と異なる場合:フォーマルに書かれた技術文書に対して、ユーザーが実際に質問する方法で要約を追加します。
  • コンセプトが暗黙的または詳細に埋もれている場合:核心的なコンセプトと意図を表面化する高レベルな要約を追加し、テキスト全体に散らばった細かい詳細に頼らずにチャンクをマッチできるようにします。
  • 生のテキストが非テキスト的な場合:チャンクが主にコード、テーブル、ログ、トランスクリプト、またはその他セマンティックにマッチしにくいものである場合、チャンクの内容を明確にラベル付けする説明的な要約を追加します。
  • 関連するチャンクをまとめて検索する必要がある場合:一連の関連チャンクに同一の要約を適用してグループ検索を有効にします。このセマンティックな接着剤により、トピックの複数の部分をまとめて検索でき、より豊富なコンテキストを提供できます。
    返される関連チャンクの数は、検索設定で定義された Top K の制限に従います。