需求方 · 缺口的甲方
Objective → Project → Task 三层分解;TaskType.QUERY 已是「向用户索取输入」的原语;TaskDependency 的 HARD / SOFT / INFORMATIONAL 三档直接映射缺口的阻塞强度;INFERRED 目标的「推断 → 确认」状态机是主动询问的动力学原型。
OMNE Next · Concept Synthesis · 2026.06
以任务为锚的主动认知:把「它有多懂你」变成一条可观测的曲线
核心主张 · Thesis
7×24 助理与用户之间存在一个「了解程度」的体感拐点:拐点之前,它被当作工具,每次都要给上下文和目标;拐点之后,它被投射为贴身助理,「我的习惯默认你知道」。
本文提出:用任务规划过程作为认知缺口的生成器,以证据因果图为缺口的结构底座,以用户自身的任务分布为「了解程度」的参照系。由此同时获得两件此前没有的东西:每个问题都有出处的主动询问,和一条自校准的、指标即体验的量化曲线。
The Inflection of Projection
用户对一个常驻 agent 的心智投射不是连续渐变的,而是存在一次相变。
相变之前,用户把它当工具:每次交互都自然地给出完整上下文和明确目标,期待单次完成,对它没有「记得我」的预期。相变之后,投射切换为贴身助理:有很多事是「我的习惯,我默认你知道」;需要判断或决定的事,预期它先过滤重要程度和紧急程度,紧急的适时主动来问,不重要不紧急的放在轻松的时候。
| 维度 | 拐点之前(工具投射) | 拐点之后(助理投射) |
|---|---|---|
| 上下文 | 每次完整给出 | 默认它已知,只说增量 |
| 目标 | 明确指令,单次闭环 | 模糊委托,长期持有 |
| 主动性 | 不期待,甚至警惕 | 预期它过滤重要与紧急,适时来问 |
| 容错 | 错了就换工具 | 错了会纠正它、教它 |
这个拐点在 OMNE 的哲学文档里有现成的叙事归属:
「这种相互理解,不是某一刻突然获得的顿悟,而是时间的馈赠——在持续的相处中,一点一滴地生长出来。」docs/philosophy.zh.md
难点在于:拐点因人而异,无法被规约成一个产品功能点。唯一能做的,是尽快让足够多的信息和足够多次的交互发生,让拐点尽早到来。本文余下的全部内容,都是在回答一个问题:这个「尽快」,有没有一条有原则、可量化、不惹人厌的路径。
The Reversal of Reference Frame
omne_user_cognition 已经有一套缺口机制:CoverageGapDetected 事件带着 suggested_questions,由 CognitionHealthOrchestrator 周期性计算 coverage_rate,提示 agent 哪些生活域稀疏。但它是 schema 驱动的:缺口相对一个静态分类法(八大生活域 × 五层认知)来度量。这种缺口天然有合法性问题。「跟我聊聊你的精神生活吧」,用户体感是问卷,是越界,反而推迟拐点。
本构想把参照系反转为用户自己的目标:缺口不再是「相对画像模板缺什么」,而是「相对你让我做的这件事,缺什么」。
这正是优秀的新入职贴身助理(EA)的行为模式:头几周问很多问题,但每个问题都挂在一件被交办的具体事情上,所以问得越多反而显得越专业。问卷式收集和任务锚定式收集走的是同一条「补信息」的路,但对拐点的作用方向相反。
每个问题都有出处:「因为你让我做这件事,所以我需要知道这个。」
Planning as Gap Generator
用户给出一个任务或目标,agent 规划出解决路径;而路径上的每个步骤,都隐含着一份「执行它所需的信息规格」。
把这份规格与现有全部认知结果(veracity 证据、cognition 记录、objective 历史)做比对,缺什么、弱什么,当场显形。缺口不再靠周期巡检发现,而是被真实需求拉出来的。
这里有一处必须诚实面对:缺口识别本身是 LLM 判断,会两头出错。幻觉出不存在的缺口,就会问废话;漏判缺口,执行中途还是要追问。而且规划粒度粗一点,缺口看起来就少。解药是双重记账:
| 账目 | 定义 | 读法 |
|---|---|---|
| 规划期缺口 | 规划时预见的信息缺失 | agent 对自身无知的「预报」 |
| 执行期意外 | 执行中才暴露、被迫追问的缺失 | 预报漏掉的部分 |
| 两者之和 | 该任务消耗的全部用户输入 | 趋势下降 = 了解程度在涨 |
| 两者之比 | 预见 / (预见 + 意外) | 规划器对自身无知的校准度,独立的元认知质量信号 |
Four Species of Gaps on the Evidence Graph
omne_veracity 的 Evidence 图(caused_by_ids、CAUSED_BY / DERIVED_FROM / SUPERSEDES 边、八类来源的可变性分级、四时间戳)让「认知缺陷」不再是布尔值。缺口至少分四种,每种对应不同的问题形态,而问题形态决定用户成本:
| 缺口型 | 图上判据 | 问题形态 | 用户成本 |
|---|---|---|---|
| 缺失 | 计划槽位无任何支撑节点 | 开放式提问 | 高 |
| 脆弱 | 溯源到底全是 AGENT_INFERENCE,无不可变锚点;或推导链过长 | 确认式提问(「我一直按 X 来安排,对吗」) | 低 |
| 冲突 | find_contradictions 命中,且双方源级相当 | 仲裁式提问(二选一) | 中 |
| 过期 | 锚点 valid_until 已过或临近,且仍被高频拉取 | 刷新式提问 | 低 |
四种问题里三种是封闭式的,用户一个字就能答。图结构不只发现了更多缺口,它把大量本要开放式问的东西降级成了确认题:提问预算的分子和分母同时变好。
更重要的是,「交叉验证」在图上有具体的算法对应物,它们不是比喻:
割点 = 认知的单点故障。一个事实若有多条路径不相交的推导链支撑,它是稳健的;若所有支撑路径汇于同一个推理节点,该节点就是割点:它错,整片下游全错。在「被计划高频拉取的事实」子图上找割点,得到的就是最值得交叉验证的目标清单。
修复杠杆 = 选题的中心性。向用户确认一个节点,它下游整条推导链的有效置信度都被重新锚定。最优提问目标不是「最缺的」,而是「确认一次能修复最多下游置信质量的」。一个问题救活一棵子树,这才是高级助理的提问效率。
需求质量 = 计划侧与证据侧的 join。每次规划拉取证据子图,给途经节点累积需求权重。询问优先级 = 需求质量 × 结构脆弱度 × 修复杠杆,三个因子全部可从图上算出。
图内仲裁先行。SUPERSEDES 边、时间戳新旧、来源不可变性分级(USER_STATED 压 AGENT_INFERENCE)能在图内消解大部分矛盾。只有同级不可变源之间的冲突,才值得花一次用户注意力。
图还能把「补充」的方向反过来:先做 link-prediction 式的推断,给缺口一个候选答案,把开放题转成确认题。「还是订靠过道的座位?」用户点一下头,这条证据的来源就从 INFERRED 升级为 USER_CONFIRMED,锚点集扩大,下游全部受益。而且猜对一次确认题,比答对十次开放题更能建立「贴身助理」的投射:用户发现它猜对了,这正是拐点体感的核心来源。
The Curve of Understanding
「AI 有多了解我」之所以一直难量化,是因为它被当作状态量(画像填了多少格子)。以任务分布为参照系后,它变成能力量:
这条曲线有三个罕见的好性质:
指标即体验。拐点的用户体感(不用每次给上下文、它会自己过滤了)和这条曲线变平,是同一件事的两面。不是用代理指标逼近体验,而是度量本身就是体验。
自动逐用户校准。拐点因人而异,正是因为每个人的任务分布不同。以任务分布为参照系,差异被指标定义本身吸收,产品不需要猜阈值。
双重记账自带元认知。规划期预见与执行期意外分开统计:和的下降趋势度量「了解」,比值度量「规划器知道自己不知道什么」。
有了证据图,还能再深一层。Ask Rate 度量交互的频次,而需求加权扎根率度量支撑日常委托的那部分知识的质量:被任务分布高频拉取的证据子图里,有多大比例锚定在新鲜的、用户确认过的不可变源上。它仍然自校准(参照系还是你自己的任务分布),但它看的是地基,不是门铃。
一条纪律必须钉死在这里:这些指标只做观测和询问驱动,绝不做优化目标。一旦变成目标,系统会学会把计划写粗来「显得很懂你」(Goodhart 定律)。曲线是温度计,不是 KPI。
Kernel Protocol, Surface Policy
提问经济学(什么时候问、怎么问、问几个)是产品形态问题,不属于机制层。
所以内核的输出物不是「问题」,而是信息需求:一个带类型与信号的缺口队列。每条缺口带着出处、类型、阻塞强度、需求质量、修复杠杆。到此为止。要不要问、什么时候问、用什么语气问,全是消费侧的事。
{
"requirement": "frequent_flyer_id",
"provenance": { "objective": "tokyo-trip-07", "step": "book-flight" }, // 问必有出处
"gap_type": "missing", // missing | fragile | conflicted | stale
"blocking": "HARD", // 复用 TaskDependency 三档
"demand_mass": 0.82, // 跨计划复现频率(图上累积)
"leverage": 0.31, // 确认后可修复的下游置信质量
"candidate": null, // 有候选 → 可降级为确认题
"deadline": "2026-06-20" // 从计划 DAG 继承,紧急度是派生量
}
「问」也不是消解缺口的唯一手段,它只是三种策略里用户注意力成本最高的一种。不同产品形态的差异,本质上是三种策略的相对定价不同:
| 策略 | 注意力成本 | 桌面编程助手 | 智能硬件中的 AI |
|---|---|---|---|
| 观察 observe | 零 | 极便宜:repo、终端、编辑行为都摆在那 | 传感器加持,但范围受限 |
| 推断 infer | 零(带风险) | 上下文充足,命中率高 | 依赖历史积累 |
| 询问 ask | 高 | 打断成本低:就地内联、高频微确认可行 | 极贵:语音打断、无屏承接,只该用确认题、攒到固定时刻 |
同一个缺口队列,两种产品消费出完全不同的行为;机制层一行不用改。跨形态的顶层指导只需五条不变式,再多就越界了:
Where It Lands in OMNE
侦察确认了一个幸运的事实:这个构想在现有架构里是关节,不是重建。
计划侧出需求,认知侧出语义,证据图出结构,engram 出治理记账,harness 出送达管道。各 BC 既有原语几乎都能复用,真正缺的只有一个新原语和一条把三段既有机制连起来的链路。
Objective → Project → Task 三层分解;TaskType.QUERY 已是「向用户索取输入」的原语;TaskDependency 的 HARD / SOFT / INFORMATIONAL 三档直接映射缺口的阻塞强度;INFERRED 目标的「推断 → 确认」状态机是主动询问的动力学原型。
L0–L4 五层认知 + 八大生活域;每条记录带 ConfidenceLevel 与 SourceType;user_stated → user_confirmed 的置信跃升给主动确认以正式地位;CoverageGapDetected.suggested_questions 是现成的问题文本载体,缺的是出处与路由。
Evidence 因果图:trace_causes() 给问题以出处,find_contradictions() 暴露冲突型缺口,reconstruct_state_at() 重建任意时点的知识态;来源不可变性分级是图内仲裁的依据。
三层约束 + violation aggregation 已是完整的结构性缺口检测管道;SchemaUsageProfile 的 mutation / violation 计数就是需求质量的现成载体;MutationIntent(置信四级 + 来源 + evidence_ref)是逐笔写入的置信记账;read_violations 与 read_usage 是向上层供应缺口信号的两个现成接口。
HITL UC-7 async push:agent 暂停、外部通道推送决策请求、correlation_key 把异步回复路由回原 run。它是纯基础设施、不感知 pause 的业务语义,恰好等着语义层来填。
计划步骤上的结构化信息需求(required info slots)。今天 Task 的 action_parameters 是非结构化 dict,缺口要等执行时才撞上。有了它,缺口 → QUERY Task → UC-7 push 三段各自存在的机制才能连成闭环。
engram 与缺口四型的对应尤其整齐,这也是它「与本构想非常相关」的实证:
| 缺口型 | engram 中的记账位 |
|---|---|
| 缺失 | Layer 1 violation(必填字段缺失);covenant 要求而 evidence_ref 为空 |
| 脆弱 | MutationConfidence = LOW + source = AGENT_INFERENCE |
| 冲突 | Layer 2 CEL 冲突规则 + graph.node.supersede 版本链 |
| 过期 | Change Log 最后修订时间 + 时效约束(阈值策略归上层) |
分工边界同样清楚:engram 是信号生产者,不是决策者。「violation → 该问用户什么」的推理转换、时机判断、对话管理,全部归上层。这与 §05 的内核/表面分层是同一个原则在另一个尺度上的重复:语义和策略分层,谁也不替谁做决定。
Reconciling with the Inaudible
必须正面处理一个哲学张力。OMNE 的北极星是「大音希声」,而它对「默契」的定义是:
「默契——它知道什么该说、什么不必说;什么时候该出现、什么时候该安静。你不需要把每件事都解释清楚,它已经懂了。」docs/philosophy.zh.md
理想状态是「不问也懂」,那么主动提问是否背离了气质?三层和解:
其一,有出处的提问是「透明与可解释」原则的行使,不是打扰。哲学文档同时要求:当 OMNE 行动时,它能说出是什么观察让它这么做。一个能展示出处的问题(「因为你让我订差旅」)正是这个原则的对话形态。破坏默契的从来不是问,是没头没尾地问。
其二,主动确认在认知架构里本就有正式地位。user_stated(最高置信)与 user_confirmed(次高)之间的跃升,只有一条路径:agent 推断、用户确认。被动等待是现有机制;由任务缺口主动触发,只是给这条已经合法的路径装上了引擎和刹车。
其三,问的目的是消灭问。Ask Rate 趋零就是「大音希声」的工程化表达:每一个有出处的问题,都在为未来的某次沉默还债。沉默不是初始状态,是挣来的状态。
问,是为了终有一日不必问。曲线的尽头,就是希声。
「不是所有能做的事都应该做。……它宁可少做一件事,也不愿做错一件事。」docs/philosophy.zh.md · 审慎与克制
这句现成的项目格言,正是第五条不变式「沉默有地板价」的哲学出处。提问预算的克制不是产品上的小心翼翼,而是这个系统本来的性格。
Disciplines and Open Questions
这个构想最大的风险不在概念,在执行纪律。三条守不住,任何一条都会把它做成反面教材:
| 纪律 | 失守的样子 | 守住的方法 |
|---|---|---|
| 假阳性缺口 | 幻觉出不存在的缺口,问废话,恰好是推迟拐点的那种烦人 | 图算法产出只当排序信号不当真值;图 propose,LLM dispose;双重记账暴露规划器失准 |
| 提问预算 | 问十个问题的秘书,比猜对九个只问一个的更显得不可靠 | 三策略升序消解;封闭题优先;沉默有地板价;预算策略全部下放产品表面 |
| Goodhart | 为了曲线好看,把计划写粗、回避有深度的分解 | 指标永远只做观测与询问驱动,绝不进优化目标、绝不进考核 |
有两件事被有意留在边界之外。其一是提问经济学的具体策略:频次、时机、通道、批量、语气随产品形态而异,桌面编程助手与智能硬件可用的技巧完全不同,顶层只压五条不变式,具体场景具体分析。其二是不可问的那部分了解:L2/L3 的模式与动机问不出来(「你的深层动机是什么」是个坏问题),它们仍走行为证据的推断管线。但提问循环对它有隐性供给:每一次确认题的答案,都是一条带标注的判断样本,显式填了 L0/L1 的槽位,隐式喂了 L2+ 的推断。
收束成一句话:计划侧出需求,证据图出结构,缺口队列是协议,提问经济学是各产品表面的实现细节,顶层只压五条不变式。这套机制同时交付一个量化北极星和一个差异化的 onboarding 叙事(冷启动即「给我三件真实的事」),而这两样,恰好都是「symbiotic partner」这个定位目前缺的实证抓手。