认知缺口 · The Epistemic Gap

OMNE · EPISTEMIC GAP

核心主张 · Thesis

7×24 助理与用户之间存在一个「了解程度」的体感拐点：拐点之前，它被当作工具，每次都要给上下文和目标；拐点之后，它被投射为贴身助理，「我的习惯默认你知道」。

本文提出：用任务规划过程作为认知缺口的生成器，以证据因果图为缺口的结构底座，以用户自身的任务分布为「了解程度」的参照系。由此同时获得两件此前没有的东西：每个问题都有出处的主动询问，和一条自校准的、指标即体验的量化曲线。

§ 00

拐点：从工具到贴身助理的投射切换

The Inflection of Projection

用户对一个常驻 agent 的心智投射不是连续渐变的，而是存在一次相变。

相变之前，用户把它当工具：每次交互都自然地给出完整上下文和明确目标，期待单次完成，对它没有「记得我」的预期。相变之后，投射切换为贴身助理：有很多事是「我的习惯，我默认你知道」；需要判断或决定的事，预期它先过滤重要程度和紧急程度，紧急的适时主动来问，不重要不紧急的放在轻松的时候。

维度	拐点之前（工具投射）	拐点之后（助理投射）
上下文	每次完整给出	默认它已知，只说增量
目标	明确指令，单次闭环	模糊委托，长期持有
主动性	不期待，甚至警惕	预期它过滤重要与紧急，适时来问
容错	错了就换工具	错了会纠正它、教它

这个拐点在 OMNE 的哲学文档里有现成的叙事归属：

「这种相互理解，不是某一刻突然获得的顿悟，而是时间的馈赠——在持续的相处中，一点一滴地生长出来。」docs/philosophy.zh.md

难点在于：拐点因人而异，无法被规约成一个产品功能点。唯一能做的，是尽快让足够多的信息和足够多次的交互发生，让拐点尽早到来。本文余下的全部内容，都是在回答一个问题：这个「尽快」，有没有一条有原则、可量化、不惹人厌的路径。

图 1 · 拐点的双曲线表述：每任务所需用户输入下降（实线）与委托范围扩张（虚线）在同一时间窗交汇。两条曲线都不是产品功能，但都可以被度量。

§ 01

反转：缺口的参照系从画像换成任务

The Reversal of Reference Frame

omne_user_cognition 已经有一套缺口机制：CoverageGapDetected 事件带着 suggested_questions，由 CognitionHealthOrchestrator 周期性计算 coverage_rate，提示 agent 哪些生活域稀疏。但它是 schema 驱动的：缺口相对一个静态分类法（八大生活域 × 五层认知）来度量。这种缺口天然有合法性问题。「跟我聊聊你的精神生活吧」，用户体感是问卷，是越界，反而推迟拐点。

本构想把参照系反转为用户自己的目标：缺口不再是「相对画像模板缺什么」，而是「相对你让我做的这件事，缺什么」。

现状 · Schema-Driven

画像参照系

缺口定义：分类法上的空格（某域某层稀疏）
问题形态：「跟我聊聊你的财务情况」
用户体感：问卷、采集、被画像
合法性：需要自我辩解，问得越多越像监控
指标：coverage_rate，与任务成败弱相关

构想 · Task-Anchored

任务参照系

缺口定义：执行某个计划步骤所缺的信息
问题形态：「订下月差旅需要你的常旅客号」
用户体感：一个称职新助理的澄清提问
合法性：问必有出处，问题本身即能力证明
指标：Ask Rate，与体感是同一件事

这正是优秀的新入职贴身助理（EA）的行为模式：头几周问很多问题，但每个问题都挂在一件被交办的具体事情上，所以问得越多反而显得越专业。问卷式收集和任务锚定式收集走的是同一条「补信息」的路，但对拐点的作用方向相反。

每个问题都有出处：「因为你让我做这件事，所以我需要知道这个。」

§ 02

生成：规划过程即缺口生成器

Planning as Gap Generator

用户给出一个任务或目标，agent 规划出解决路径；而路径上的每个步骤，都隐含着一份「执行它所需的信息规格」。

把这份规格与现有全部认知结果（veracity 证据、cognition 记录、objective 历史）做比对，缺什么、弱什么，当场显形。缺口不再靠周期巡检发现，而是被真实需求拉出来的。

图 2 · 一个真实目标被分解后，每个步骤的信息槽位对照现有认知逐一核验。两个琥珀色槽位成为本次规划产出的「有出处的询问候选」。

这里有一处必须诚实面对：缺口识别本身是 LLM 判断，会两头出错。幻觉出不存在的缺口，就会问废话；漏判缺口，执行中途还是要追问。而且规划粒度粗一点，缺口看起来就少。解药是双重记账：

账目	定义	读法
规划期缺口	规划时预见的信息缺失	agent 对自身无知的「预报」
执行期意外	执行中才暴露、被迫追问的缺失	预报漏掉的部分
两者之和	该任务消耗的全部用户输入	趋势下降 = 了解程度在涨
两者之比	预见 / （预见 + 意外）	规划器对自身无知的校准度，独立的元认知质量信号

§ 03

四型：证据图让缺口长出结构

Four Species of Gaps on the Evidence Graph

omne_veracity 的 Evidence 图（caused_by_ids、CAUSED_BY / DERIVED_FROM / SUPERSEDES 边、八类来源的可变性分级、四时间戳）让「认知缺陷」不再是布尔值。缺口至少分四种，每种对应不同的问题形态，而问题形态决定用户成本：

缺口型	图上判据	问题形态	用户成本
缺失	计划槽位无任何支撑节点	开放式提问	高
脆弱	溯源到底全是 AGENT_INFERENCE，无不可变锚点；或推导链过长	确认式提问（「我一直按 X 来安排，对吗」）	低
冲突	`find_contradictions` 命中，且双方源级相当	仲裁式提问（二选一）	中
过期	锚点 `valid_until` 已过或临近，且仍被高频拉取	刷新式提问	低

四种问题里三种是封闭式的，用户一个字就能答。图结构不只发现了更多缺口，它把大量本要开放式问的东西降级成了确认题：提问预算的分子和分母同时变好。

更重要的是，「交叉验证」在图上有具体的算法对应物，它们不是比喻：

割点 = 认知的单点故障。一个事实若有多条路径不相交的推导链支撑，它是稳健的；若所有支撑路径汇于同一个推理节点，该节点就是割点：它错，整片下游全错。在「被计划高频拉取的事实」子图上找割点，得到的就是最值得交叉验证的目标清单。

修复杠杆 = 选题的中心性。向用户确认一个节点，它下游整条推导链的有效置信度都被重新锚定。最优提问目标不是「最缺的」，而是「确认一次能修复最多下游置信质量的」。一个问题救活一棵子树，这才是高级助理的提问效率。

需求质量 = 计划侧与证据侧的 join。每次规划拉取证据子图，给途经节点累积需求权重。询问优先级 = 需求质量 × 结构脆弱度 × 修复杠杆，三个因子全部可从图上算出。

图内仲裁先行。SUPERSEDES 边、时间戳新旧、来源不可变性分级（USER_STATED 压 AGENT_INFERENCE）能在图内消解大部分矛盾。只有同级不可变源之间的冲突，才值得花一次用户注意力。

图 3 · 同一张证据图上并存的四种缺口。割点（琥珀虚线圈）是最高价值的确认目标：确认一次「早起型作息」，两条下游推断同时被重新锚定。

图还能把「补充」的方向反过来：先做 link-prediction 式的推断，给缺口一个候选答案，把开放题转成确认题。「还是订靠过道的座位？」用户点一下头，这条证据的来源就从 INFERRED 升级为 USER_CONFIRMED，锚点集扩大，下游全部受益。而且猜对一次确认题，比答对十次开放题更能建立「贴身助理」的投射：用户发现它猜对了，这正是拐点体感的核心来源。

§ 04

曲线：了解程度第一次变成可见之物

The Curve of Understanding

「AI 有多了解我」之所以一直难量化，是因为它被当作状态量（画像填了多少格子）。以任务分布为参照系后，它变成能力量：

Ask Rate（t） = 每任务向用户索取的信息数 ÷ 规划步骤数，按时间窗聚合，随共同经历下降

这条曲线有三个罕见的好性质：

指标即体验。拐点的用户体感（不用每次给上下文、它会自己过滤了）和这条曲线变平，是同一件事的两面。不是用代理指标逼近体验，而是度量本身就是体验。

自动逐用户校准。拐点因人而异，正是因为每个人的任务分布不同。以任务分布为参照系，差异被指标定义本身吸收，产品不需要猜阈值。

双重记账自带元认知。规划期预见与执行期意外分开统计：和的下降趋势度量「了解」，比值度量「规划器知道自己不知道什么」。

有了证据图，还能再深一层。Ask Rate 度量交互的频次，而需求加权扎根率度量支撑日常委托的那部分知识的质量：被任务分布高频拉取的证据子图里，有多大比例锚定在新鲜的、用户确认过的不可变源上。它仍然自校准（参照系还是你自己的任务分布），但它看的是地基，不是门铃。

图 4 · 三条可观测曲线：两条下降线之差是规划器的元认知校准度；上升的虚线是需求加权扎根率。拐点不再需要被定义，它在曲线族的形态里自己显形。

一条纪律必须钉死在这里：这些指标只做观测和询问驱动，绝不做优化目标。一旦变成目标，系统会学会把计划写粗来「显得很懂你」（Goodhart 定律）。曲线是温度计，不是 KPI。

§ 05

分层：内核出协议，表面出策略

Kernel Protocol, Surface Policy

提问经济学（什么时候问、怎么问、问几个）是产品形态问题，不属于机制层。

所以内核的输出物不是「问题」，而是信息需求：一个带类型与信号的缺口队列。每条缺口带着出处、类型、阻塞强度、需求质量、修复杠杆。到此为止。要不要问、什么时候问、用什么语气问，全是消费侧的事。

gap-queue · 内核到产品表面的契约（示意）

{
  "requirement": "frequent_flyer_id",
  "provenance":  { "objective": "tokyo-trip-07", "step": "book-flight" },   // 问必有出处
  "gap_type":    "missing",                  // missing | fragile | conflicted | stale
  "blocking":    "HARD",                     // 复用 TaskDependency 三档
  "demand_mass": 0.82,                       // 跨计划复现频率（图上累积）
  "leverage":    0.31,                       // 确认后可修复的下游置信质量
  "candidate":   null,                       // 有候选 → 可降级为确认题
  "deadline":    "2026-06-20"                // 从计划 DAG 继承，紧急度是派生量
}

「问」也不是消解缺口的唯一手段，它只是三种策略里用户注意力成本最高的一种。不同产品形态的差异，本质上是三种策略的相对定价不同：

策略	注意力成本	桌面编程助手	智能硬件中的 AI
观察 observe	零	极便宜：repo、终端、编辑行为都摆在那	传感器加持，但范围受限
推断 infer	零（带风险）	上下文充足，命中率高	依赖历史积累
询问 ask	高	打断成本低：就地内联、高频微确认可行	极贵：语音打断、无屏承接，只该用确认题、攒到固定时刻

同一个缺口队列，两种产品消费出完全不同的行为；机制层一行不用改。跨形态的顶层指导只需五条不变式，再多就越界了：

问必有出处每个触达用户的问题都能回溯到一个真实需求来源。这是合法性底线，也是与问卷式收集的根本区别。
观察先于推断，推断先于询问按注意力成本升序消解缺口；问是最后手段，不是第一反应。
能封闭不开放确认题、仲裁题优先于开放题；有候选答案就先猜后问。
图内仲裁先行系统内部能消解的冲突不上交。用户是最后法院，不是日常裁判。
沉默有地板价低于价值阈值的缺口宁可带着不确定性行动并标记，也不消耗注意力；指标只观测，不优化。

§ 06

底座：三根柱子、一个基座、一条管道

Where It Lands in OMNE

侦察确认了一个幸运的事实：这个构想在现有架构里是关节，不是重建。

计划侧出需求，认知侧出语义，证据图出结构，engram 出治理记账，harness 出送达管道。各 BC 既有原语几乎都能复用，真正缺的只有一个新原语和一条把三段既有机制连起来的链路。

omne_objective_management

需求方 · 缺口的甲方

Objective → Project → Task 三层分解；TaskType.QUERY 已是「向用户索取输入」的原语；TaskDependency 的 HARD / SOFT / INFORMATIONAL 三档直接映射缺口的阻塞强度；INFERRED 目标的「推断 → 确认」状态机是主动询问的动力学原型。

omne_user_cognition

语义载体 · 缺口的辞典

L0–L4 五层认知 + 八大生活域；每条记录带 ConfidenceLevel 与 SourceType；user_stated → user_confirmed 的置信跃升给主动确认以正式地位；CoverageGapDetected.suggested_questions 是现成的问题文本载体，缺的是出处与路由。

omne_veracity

证据底座 · 缺口的几何

Evidence 因果图：trace_causes() 给问题以出处，find_contradictions() 暴露冲突型缺口，reconstruct_state_at() 重建任意时点的知识态；来源不可变性分级是图内仲裁的依据。

omne_engram（未上线）

治理基座 · 缺口的记账本

三层约束 + violation aggregation 已是完整的结构性缺口检测管道；SchemaUsageProfile 的 mutation / violation 计数就是需求质量的现成载体；MutationIntent（置信四级 + 来源 + evidence_ref）是逐笔写入的置信记账；read_violations 与 read_usage 是向上层供应缺口信号的两个现成接口。

omne_harness

管道 · 缺口的邮差

HITL UC-7 async push：agent 暂停、外部通道推送决策请求、correlation_key 把异步回复路由回原 run。它是纯基础设施、不感知 pause 的业务语义，恰好等着语义层来填。

缺的那一块

新原语 · 仅此一个

计划步骤上的结构化信息需求（required info slots）。今天 Task 的 action_parameters 是非结构化 dict，缺口要等执行时才撞上。有了它，缺口 → QUERY Task → UC-7 push 三段各自存在的机制才能连成闭环。

图 5 · 挂载图。实线均为现存机制；琥珀虚线是本构想需要补的全部内容：规划拉取认知（pull 接口）、缺口生成 QUERY Task、经 UC-7 送达、回答回写升级。三根柱子各司其职，没有谁越界。

engram 与缺口四型的对应尤其整齐，这也是它「与本构想非常相关」的实证：

缺口型	engram 中的记账位
缺失	Layer 1 violation（必填字段缺失）；covenant 要求而 `evidence_ref` 为空
脆弱	`MutationConfidence = LOW` + `source = AGENT_INFERENCE`
冲突	Layer 2 CEL 冲突规则 + `graph.node.supersede` 版本链
过期	Change Log 最后修订时间 + 时效约束（阈值策略归上层）

分工边界同样清楚：engram 是信号生产者，不是决策者。「violation → 该问用户什么」的推理转换、时机判断、对话管理，全部归上层。这与 §05 的内核/表面分层是同一个原则在另一个尺度上的重复：语义和策略分层，谁也不替谁做决定。

§ 07

希声：主动提问与「大音希声」的和解

Reconciling with the Inaudible

必须正面处理一个哲学张力。OMNE 的北极星是「大音希声」，而它对「默契」的定义是：

「默契——它知道什么该说、什么不必说；什么时候该出现、什么时候该安静。你不需要把每件事都解释清楚，它已经懂了。」docs/philosophy.zh.md

理想状态是「不问也懂」，那么主动提问是否背离了气质？三层和解：

其一，有出处的提问是「透明与可解释」原则的行使，不是打扰。哲学文档同时要求：当 OMNE 行动时，它能说出是什么观察让它这么做。一个能展示出处的问题（「因为你让我订差旅」）正是这个原则的对话形态。破坏默契的从来不是问，是没头没尾地问。

其二，主动确认在认知架构里本就有正式地位。user_stated（最高置信）与 user_confirmed（次高）之间的跃升，只有一条路径：agent 推断、用户确认。被动等待是现有机制；由任务缺口主动触发，只是给这条已经合法的路径装上了引擎和刹车。

其三，问的目的是消灭问。Ask Rate 趋零就是「大音希声」的工程化表达：每一个有出处的问题，都在为未来的某次沉默还债。沉默不是初始状态，是挣来的状态。

问，是为了终有一日不必问。曲线的尽头，就是希声。

「不是所有能做的事都应该做。……它宁可少做一件事，也不愿做错一件事。」docs/philosophy.zh.md · 审慎与克制

这句现成的项目格言，正是第五条不变式「沉默有地板价」的哲学出处。提问预算的克制不是产品上的小心翼翼，而是这个系统本来的性格。

§ 08

纪律与边界：哪里会做坏，哪里留给未来

Disciplines and Open Questions

这个构想最大的风险不在概念，在执行纪律。三条守不住，任何一条都会把它做成反面教材：

纪律	失守的样子	守住的方法
假阳性缺口	幻觉出不存在的缺口，问废话，恰好是推迟拐点的那种烦人	图算法产出只当排序信号不当真值；图 propose，LLM dispose；双重记账暴露规划器失准
提问预算	问十个问题的秘书，比猜对九个只问一个的更显得不可靠	三策略升序消解；封闭题优先；沉默有地板价；预算策略全部下放产品表面
Goodhart	为了曲线好看，把计划写粗、回避有深度的分解	指标永远只做观测与询问驱动，绝不进优化目标、绝不进考核

有两件事被有意留在边界之外。其一是提问经济学的具体策略：频次、时机、通道、批量、语气随产品形态而异，桌面编程助手与智能硬件可用的技巧完全不同，顶层只压五条不变式，具体场景具体分析。其二是不可问的那部分了解：L2/L3 的模式与动机问不出来（「你的深层动机是什么」是个坏问题），它们仍走行为证据的推断管线。但提问循环对它有隐性供给：每一次确认题的答案，都是一条带标注的判断样本，显式填了 L0/L1 的槽位，隐式喂了 L2+ 的推断。

收束成一句话：计划侧出需求，证据图出结构，缺口队列是协议，提问经济学是各产品表面的实现细节，顶层只压五条不变式。这套机制同时交付一个量化北极星和一个差异化的 onboarding 叙事（冷启动即「给我三件真实的事」），而这两样，恰好都是「symbiotic partner」这个定位目前缺的实证抓手。