OMNE · EPISTEMIC GAP

OMNE Next · Concept Synthesis · 2026.06

认知缺口The Epistemic Gap

以任务为锚的主动认知:把「它有多懂你」变成一条可观测的曲线

综合自四轮探讨与三次架构侦察 参照 omne-next 设计文档与 ADR 体系 Pneuma WebCraft · 2026-06-11

核心主张 · Thesis

7×24 助理与用户之间存在一个「了解程度」的体感拐点:拐点之前,它被当作工具,每次都要给上下文和目标;拐点之后,它被投射为贴身助理,「我的习惯默认你知道」。

本文提出:用任务规划过程作为认知缺口的生成器,以证据因果图为缺口的结构底座,以用户自身的任务分布为「了解程度」的参照系。由此同时获得两件此前没有的东西:每个问题都有出处的主动询问,和一条自校准的、指标即体验的量化曲线

§ 00

拐点:从工具到贴身助理的投射切换

The Inflection of Projection

用户对一个常驻 agent 的心智投射不是连续渐变的,而是存在一次相变。

相变之前,用户把它当工具:每次交互都自然地给出完整上下文和明确目标,期待单次完成,对它没有「记得我」的预期。相变之后,投射切换为贴身助理:有很多事是「我的习惯,我默认你知道」;需要判断或决定的事,预期它先过滤重要程度和紧急程度,紧急的适时主动来问,不重要不紧急的放在轻松的时候。

维度拐点之前(工具投射)拐点之后(助理投射)
上下文每次完整给出默认它已知,只说增量
目标明确指令,单次闭环模糊委托,长期持有
主动性不期待,甚至警惕预期它过滤重要与紧急,适时来问
容错错了就换工具错了会纠正它、教它

这个拐点在 OMNE 的哲学文档里有现成的叙事归属:

「这种相互理解,不是某一刻突然获得的顿悟,而是时间的馈赠——在持续的相处中,一点一滴地生长出来。」docs/philosophy.zh.md

难点在于:拐点因人而异,无法被规约成一个产品功能点。唯一能做的,是尽快让足够多的信息和足够多次的交互发生,让拐点尽早到来。本文余下的全部内容,都是在回答一个问题:这个「尽快」,有没有一条有原则、可量化、不惹人厌的路径。

体感拐点(因人而异) 累积交互 · 共同经历 → 每任务需要用户提供的输入(Ask Rate) 用户愿意委托的范围 工具投射 贴身助理投射
图 1 · 拐点的双曲线表述:每任务所需用户输入下降(实线)与委托范围扩张(虚线)在同一时间窗交汇。两条曲线都不是产品功能,但都可以被度量。
§ 01

反转:缺口的参照系从画像换成任务

The Reversal of Reference Frame

omne_user_cognition 已经有一套缺口机制:CoverageGapDetected 事件带着 suggested_questions,由 CognitionHealthOrchestrator 周期性计算 coverage_rate,提示 agent 哪些生活域稀疏。但它是 schema 驱动的:缺口相对一个静态分类法(八大生活域 × 五层认知)来度量。这种缺口天然有合法性问题。「跟我聊聊你的精神生活吧」,用户体感是问卷,是越界,反而推迟拐点。

本构想把参照系反转为用户自己的目标:缺口不再是「相对画像模板缺什么」,而是「相对你让我做的这件事,缺什么」。

现状 · Schema-Driven

画像参照系

  • 缺口定义:分类法上的空格(某域某层稀疏)
  • 问题形态:「跟我聊聊你的财务情况」
  • 用户体感:问卷、采集、被画像
  • 合法性:需要自我辩解,问得越多越像监控
  • 指标:coverage_rate,与任务成败弱相关
构想 · Task-Anchored

任务参照系

  • 缺口定义:执行某个计划步骤所缺的信息
  • 问题形态:「订下月差旅需要你的常旅客号」
  • 用户体感:一个称职新助理的澄清提问
  • 合法性:问必有出处,问题本身即能力证明
  • 指标:Ask Rate,与体感是同一件事

这正是优秀的新入职贴身助理(EA)的行为模式:头几周问很多问题,但每个问题都挂在一件被交办的具体事情上,所以问得越多反而显得越专业。问卷式收集和任务锚定式收集走的是同一条「补信息」的路,但对拐点的作用方向相反。

每个问题都有出处:「因为你让我做这件事,所以我需要知道这个。」

§ 02

生成:规划过程即缺口生成器

Planning as Gap Generator

用户给出一个任务或目标,agent 规划出解决路径;而路径上的每个步骤,都隐含着一份「执行它所需的信息规格」。

把这份规格与现有全部认知结果(veracity 证据、cognition 记录、objective 历史)做比对,缺什么、弱什么,当场显形。缺口不再靠周期巡检发现,而是被真实需求拉出来的。

GOAL 安排下月东京差旅 user_stated · 2026-06 步骤 1 · 查日程窗口 日历访问(已观察) 出行时长惯例(已确认) 步骤 2 · 订机票 预算边界(已确认) 舱位与航司偏好(推断) 常旅客号(缺失) 步骤 3 · 订酒店 区域偏好(推断) 发票抬头(缺失) 步骤 4 · 行程汇报 汇报格式(已确认) 打扰时段(推断) 已锚定(user_stated / confirmed / observed) 可推断(可降级为确认题) 缺失(询问候选)
图 2 · 一个真实目标被分解后,每个步骤的信息槽位对照现有认知逐一核验。两个琥珀色槽位成为本次规划产出的「有出处的询问候选」。

这里有一处必须诚实面对:缺口识别本身是 LLM 判断,会两头出错。幻觉出不存在的缺口,就会问废话;漏判缺口,执行中途还是要追问。而且规划粒度粗一点,缺口看起来就少。解药是双重记账

账目定义读法
规划期缺口规划时预见的信息缺失agent 对自身无知的「预报」
执行期意外执行中才暴露、被迫追问的缺失预报漏掉的部分
两者之和该任务消耗的全部用户输入趋势下降 = 了解程度在涨
两者之比预见 / (预见 + 意外)规划器对自身无知的校准度,独立的元认知质量信号
§ 03

四型:证据图让缺口长出结构

Four Species of Gaps on the Evidence Graph

omne_veracity 的 Evidence 图(caused_by_ids、CAUSED_BY / DERIVED_FROM / SUPERSEDES 边、八类来源的可变性分级、四时间戳)让「认知缺陷」不再是布尔值。缺口至少分四种,每种对应不同的问题形态,而问题形态决定用户成本

缺口型图上判据问题形态用户成本
缺失计划槽位无任何支撑节点开放式提问
脆弱溯源到底全是 AGENT_INFERENCE,无不可变锚点;或推导链过长确认式提问(「我一直按 X 来安排,对吗」)
冲突find_contradictions 命中,且双方源级相当仲裁式提问(二选一)
过期锚点 valid_until 已过或临近,且仍被高频拉取刷新式提问

四种问题里三种是封闭式的,用户一个字就能答。图结构不只发现了更多缺口,它把大量本要开放式问的东西降级成了确认题:提问预算的分子和分母同时变好。

更重要的是,「交叉验证」在图上有具体的算法对应物,它们不是比喻:

割点 = 认知的单点故障。一个事实若有多条路径不相交的推导链支撑,它是稳健的;若所有支撑路径汇于同一个推理节点,该节点就是割点:它错,整片下游全错。在「被计划高频拉取的事实」子图上找割点,得到的就是最值得交叉验证的目标清单。

修复杠杆 = 选题的中心性。向用户确认一个节点,它下游整条推导链的有效置信度都被重新锚定。最优提问目标不是「最缺的」,而是「确认一次能修复最多下游置信质量的」。一个问题救活一棵子树,这才是高级助理的提问效率。

需求质量 = 计划侧与证据侧的 join。每次规划拉取证据子图,给途经节点累积需求权重。询问优先级 = 需求质量 × 结构脆弱度 × 修复杠杆,三个因子全部可从图上算出。

图内仲裁先行。SUPERSEDES 边、时间戳新旧、来源不可变性分级(USER_STATED 压 AGENT_INFERENCE)能在图内消解大部分矛盾。只有同级不可变源之间的冲突,才值得花一次用户注意力。

「周五下午不排会」 USER_STATED 出差记录 ×6 WORLD_OBSERVATION 割点:单点故障 推断「早起型作息」 「偏好上午长途航班」 「酒店要安静区域」 脆弱:全链无锚点 「常住新宿」 2025-11 「最近三次都订银座」 2026-05 冲突:同级来源对峙 「健身房会籍」 valid_until 已过 过期:待刷新 ? 「常旅客号」:无任何支撑节点(缺失)
图 3 · 同一张证据图上并存的四种缺口。割点(琥珀虚线圈)是最高价值的确认目标:确认一次「早起型作息」,两条下游推断同时被重新锚定。

图还能把「补充」的方向反过来:先做 link-prediction 式的推断,给缺口一个候选答案,把开放题转成确认题。「还是订靠过道的座位?」用户点一下头,这条证据的来源就从 INFERRED 升级为 USER_CONFIRMED,锚点集扩大,下游全部受益。而且猜对一次确认题,比答对十次开放题更能建立「贴身助理」的投射:用户发现它猜对了,这正是拐点体感的核心来源。

§ 04

曲线:了解程度第一次变成可见之物

The Curve of Understanding

「AI 有多了解我」之所以一直难量化,是因为它被当作状态量(画像填了多少格子)。以任务分布为参照系后,它变成能力量

Ask Rate(t) = 每任务向用户索取的信息数 ÷ 规划步骤数,按时间窗聚合,随共同经历下降

这条曲线有三个罕见的好性质:

指标即体验。拐点的用户体感(不用每次给上下文、它会自己过滤了)和这条曲线变平,是同一件事的两面。不是用代理指标逼近体验,而是度量本身就是体验。

自动逐用户校准。拐点因人而异,正是因为每个人的任务分布不同。以任务分布为参照系,差异被指标定义本身吸收,产品不需要猜阈值。

双重记账自带元认知。规划期预见与执行期意外分开统计:和的下降趋势度量「了解」,比值度量「规划器知道自己不知道什么」。

有了证据图,还能再深一层。Ask Rate 度量交互的频次,而需求加权扎根率度量支撑日常委托的那部分知识的质量:被任务分布高频拉取的证据子图里,有多大比例锚定在新鲜的、用户确认过的不可变源上。它仍然自校准(参照系还是你自己的任务分布),但它看的是地基,不是门铃。

周序 → 执行期意外(runtime surprise) 规划期缺口(预见) 差值 = 校准度 需求加权扎根率 ↑ 每任务用户输入
图 4 · 三条可观测曲线:两条下降线之差是规划器的元认知校准度;上升的虚线是需求加权扎根率。拐点不再需要被定义,它在曲线族的形态里自己显形。

一条纪律必须钉死在这里:这些指标只做观测和询问驱动,绝不做优化目标。一旦变成目标,系统会学会把计划写粗来「显得很懂你」(Goodhart 定律)。曲线是温度计,不是 KPI。

§ 05

分层:内核出协议,表面出策略

Kernel Protocol, Surface Policy

提问经济学(什么时候问、怎么问、问几个)是产品形态问题,不属于机制层。

所以内核的输出物不是「问题」,而是信息需求:一个带类型与信号的缺口队列。每条缺口带着出处、类型、阻塞强度、需求质量、修复杠杆。到此为止。要不要问、什么时候问、用什么语气问,全是消费侧的事。

gap-queue · 内核到产品表面的契约(示意)
{
  "requirement": "frequent_flyer_id",
  "provenance":  { "objective": "tokyo-trip-07", "step": "book-flight" },   // 问必有出处
  "gap_type":    "missing",                  // missing | fragile | conflicted | stale
  "blocking":    "HARD",                     // 复用 TaskDependency 三档
  "demand_mass": 0.82,                       // 跨计划复现频率(图上累积)
  "leverage":    0.31,                       // 确认后可修复的下游置信质量
  "candidate":   null,                       // 有候选 → 可降级为确认题
  "deadline":    "2026-06-20"                // 从计划 DAG 继承,紧急度是派生量
}

「问」也不是消解缺口的唯一手段,它只是三种策略里用户注意力成本最高的一种。不同产品形态的差异,本质上是三种策略的相对定价不同:

策略注意力成本桌面编程助手智能硬件中的 AI
观察 observe极便宜:repo、终端、编辑行为都摆在那传感器加持,但范围受限
推断 infer零(带风险)上下文充足,命中率高依赖历史积累
询问 ask打断成本低:就地内联、高频微确认可行极贵:语音打断、无屏承接,只该用确认题、攒到固定时刻

同一个缺口队列,两种产品消费出完全不同的行为;机制层一行不用改。跨形态的顶层指导只需五条不变式,再多就越界了:

  1. 问必有出处每个触达用户的问题都能回溯到一个真实需求来源。这是合法性底线,也是与问卷式收集的根本区别。
  2. 观察先于推断,推断先于询问按注意力成本升序消解缺口;问是最后手段,不是第一反应。
  3. 能封闭不开放确认题、仲裁题优先于开放题;有候选答案就先猜后问。
  4. 图内仲裁先行系统内部能消解的冲突不上交。用户是最后法院,不是日常裁判。
  5. 沉默有地板价低于价值阈值的缺口宁可带着不确定性行动并标记,也不消耗注意力;指标只观测,不优化。
§ 06

底座:三根柱子、一个基座、一条管道

Where It Lands in OMNE

侦察确认了一个幸运的事实:这个构想在现有架构里是关节,不是重建。

计划侧出需求,认知侧出语义,证据图出结构,engram 出治理记账,harness 出送达管道。各 BC 既有原语几乎都能复用,真正缺的只有一个新原语和一条把三段既有机制连起来的链路。

omne_objective_management

需求方 · 缺口的甲方

Objective → Project → Task 三层分解;TaskType.QUERY 已是「向用户索取输入」的原语;TaskDependency 的 HARD / SOFT / INFORMATIONAL 三档直接映射缺口的阻塞强度;INFERRED 目标的「推断 → 确认」状态机是主动询问的动力学原型。

omne_user_cognition

语义载体 · 缺口的辞典

L0–L4 五层认知 + 八大生活域;每条记录带 ConfidenceLevelSourceTypeuser_stated → user_confirmed 的置信跃升给主动确认以正式地位;CoverageGapDetected.suggested_questions 是现成的问题文本载体,缺的是出处与路由。

omne_veracity

证据底座 · 缺口的几何

Evidence 因果图:trace_causes() 给问题以出处,find_contradictions() 暴露冲突型缺口,reconstruct_state_at() 重建任意时点的知识态;来源不可变性分级是图内仲裁的依据。

omne_engram(未上线)

治理基座 · 缺口的记账本

三层约束 + violation aggregation 已是完整的结构性缺口检测管道;SchemaUsageProfile 的 mutation / violation 计数就是需求质量的现成载体;MutationIntent(置信四级 + 来源 + evidence_ref)是逐笔写入的置信记账;read_violationsread_usage 是向上层供应缺口信号的两个现成接口。

omne_harness

管道 · 缺口的邮差

HITL UC-7 async push:agent 暂停、外部通道推送决策请求、correlation_key 把异步回复路由回原 run。它是纯基础设施、不感知 pause 的业务语义,恰好等着语义层来填。

缺的那一块

新原语 · 仅此一个

计划步骤上的结构化信息需求(required info slots)。今天 Task 的 action_parameters 是非结构化 dict,缺口要等执行时才撞上。有了它,缺口 → QUERY Task → UC-7 push 三段各自存在的机制才能连成闭环。

用户 OMNE_OBJECTIVE_MANAGEMENT 规划 · 需求方 Objective → Project → Task TaskType.QUERY · 依赖三档 + 步骤级信息需求(新原语) GAP QUEUE · 协议 缺口队列 出处 · 四型 · 阻塞 · 需求质量 观察 → 推断 → 询问 三策略 OMNE_HARNESS · INBOUND 送达管道 HITL UC-7 async push correlation_key 回路 OMNE_USER_COGNITION 语义载体 L0–L4 · 八大生活域 inferred → user_confirmed 跃升 OMNE_VERACITY 证据底座 因果链 · 不可变锚点 find_contradictions · 时点重建 OMNE_ENGRAM(未上线 · 治理基座) 三层约束 = 缺口检测管道 · SchemaUsageProfile = 需求质量 · MutationIntent = 置信记账 · read_violations / read_usage 语义 · 置信 结构 · 仲裁 证据 底层化(consumer 自行接入) 规划拉取 QUERY Task push 回答回写:confirmed 升级 已有机制 待建链路
图 5 · 挂载图。实线均为现存机制;琥珀虚线是本构想需要补的全部内容:规划拉取认知(pull 接口)、缺口生成 QUERY Task、经 UC-7 送达、回答回写升级。三根柱子各司其职,没有谁越界。

engram 与缺口四型的对应尤其整齐,这也是它「与本构想非常相关」的实证:

缺口型engram 中的记账位
缺失Layer 1 violation(必填字段缺失);covenant 要求而 evidence_ref 为空
脆弱MutationConfidence = LOW + source = AGENT_INFERENCE
冲突Layer 2 CEL 冲突规则 + graph.node.supersede 版本链
过期Change Log 最后修订时间 + 时效约束(阈值策略归上层)

分工边界同样清楚:engram 是信号生产者,不是决策者。「violation → 该问用户什么」的推理转换、时机判断、对话管理,全部归上层。这与 §05 的内核/表面分层是同一个原则在另一个尺度上的重复:语义和策略分层,谁也不替谁做决定。

§ 07

希声:主动提问与「大音希声」的和解

Reconciling with the Inaudible

必须正面处理一个哲学张力。OMNE 的北极星是「大音希声」,而它对「默契」的定义是:

「默契——它知道什么该说、什么不必说;什么时候该出现、什么时候该安静。你不需要把每件事都解释清楚,它已经懂了。」docs/philosophy.zh.md

理想状态是「不问也懂」,那么主动提问是否背离了气质?三层和解:

其一,有出处的提问是「透明与可解释」原则的行使,不是打扰。哲学文档同时要求:当 OMNE 行动时,它能说出是什么观察让它这么做。一个能展示出处的问题(「因为你让我订差旅」)正是这个原则的对话形态。破坏默契的从来不是问,是没头没尾地问。

其二,主动确认在认知架构里本就有正式地位。user_stated(最高置信)与 user_confirmed(次高)之间的跃升,只有一条路径:agent 推断、用户确认。被动等待是现有机制;由任务缺口主动触发,只是给这条已经合法的路径装上了引擎和刹车。

其三,问的目的是消灭问。Ask Rate 趋零就是「大音希声」的工程化表达:每一个有出处的问题,都在为未来的某次沉默还债。沉默不是初始状态,是挣来的状态。

问,是为了终有一日不必问。曲线的尽头,就是希声。

「不是所有能做的事都应该做。……它宁可少做一件事,也不愿做错一件事。」docs/philosophy.zh.md · 审慎与克制

这句现成的项目格言,正是第五条不变式「沉默有地板价」的哲学出处。提问预算的克制不是产品上的小心翼翼,而是这个系统本来的性格。

§ 08

纪律与边界:哪里会做坏,哪里留给未来

Disciplines and Open Questions

这个构想最大的风险不在概念,在执行纪律。三条守不住,任何一条都会把它做成反面教材:

纪律失守的样子守住的方法
假阳性缺口幻觉出不存在的缺口,问废话,恰好是推迟拐点的那种烦人图算法产出只当排序信号不当真值;图 propose,LLM dispose;双重记账暴露规划器失准
提问预算问十个问题的秘书,比猜对九个只问一个的更显得不可靠三策略升序消解;封闭题优先;沉默有地板价;预算策略全部下放产品表面
Goodhart为了曲线好看,把计划写粗、回避有深度的分解指标永远只做观测与询问驱动,绝不进优化目标、绝不进考核

有两件事被有意留在边界之外。其一是提问经济学的具体策略:频次、时机、通道、批量、语气随产品形态而异,桌面编程助手与智能硬件可用的技巧完全不同,顶层只压五条不变式,具体场景具体分析。其二是不可问的那部分了解:L2/L3 的模式与动机问不出来(「你的深层动机是什么」是个坏问题),它们仍走行为证据的推断管线。但提问循环对它有隐性供给:每一次确认题的答案,都是一条带标注的判断样本,显式填了 L0/L1 的槽位,隐式喂了 L2+ 的推断。

收束成一句话:计划侧出需求,证据图出结构,缺口队列是协议,提问经济学是各产品表面的实现细节,顶层只压五条不变式。这套机制同时交付一个量化北极星和一个差异化的 onboarding 叙事(冷启动即「给我三件真实的事」),而这两样,恰好都是「symbiotic partner」这个定位目前缺的实证抓手。