智能体跨层风险传播与三层可信治理体系(技术路线图谱)

浙江大学滨江研究院 · 数智融合研究中心(IFRC)— 宽轴带内嵌论文标题与风险阶段同一传导泳道

电力基础设施 调度 · 工控语义 · 高可信推理 金融决策交易 合规条款 · 实时决策 · 证据链 具身智能机器人 感知–规划–执行闭环 泛政务服务 多智能体协同 · 民众交互 身份凭据伪造与跨域信任注入 投毒 MCP 工具 对抗性语言输入 模糊高危指令 L1 认知决策层 语义空间诱导防御与意图对齐约束 · 潜空间事实偏离抑制 · 内生表征与安全对齐 2026–2030 规划侧重(认知可信):推理与测试时 RL 安全(TTRL)、RAG 白盒忠实度与记忆治理、机械可解释性(SAE)、机器遗忘、长期记忆投毒与世界模型表征风险(方向 21.1)等。 ★ 2026–2030 认知可信 · SafeTTRL / RAG·记忆 / SAE · 21.1 L1 · 三轴线风险传导 轴α 指令解析与意图对齐空间 对抗提示 潜意图失真 解码偏好偏移 ↓ 工具触发偏见 轴β 知识增强中的事实性偏差传播 检索噪声 双路径分歧 证据断裂 ↓ 幻觉下行 轴γ 潜空间对抗表征偏移 表征混合 对齐塌陷 token 逸出 ↓ 护栏静默 ⚠ 跨层风险演化 #1(多轴汇合 · Cross-layer Risk Evolution) 轴α/γ:潜空间污染 → MCP 工具抉择失真 · 轴β:错误证据沿上下文注入协议负载 对齐 Gentel:br_intent 下行 → ac_api 之前的语义意图向执行原语的映射阻抗破裂风险 L2 代理集成层 Model Context Protocol(MCP)· 代理执行原语的安全映射与协议边界加固 2026–2030 规划侧重(执行可信):多模态与跨模态安全、具身语义—物理执行鸿沟、OS 级智能体沙箱与工具最小权限、工具收据与可验证执行、可控世界模型闭环评估与安全预演(方向 21.3)等。 ★ 2026–2030 执行可信 · Runtime Shield / 权限·收据 / 21.3 L2 · 四轴线风险传导 轴A 上下文注入协议风险 (MCP Surface) 伪造 tools 语义穿透 JSON 污染 → ac_api 信任根失效 轴B 逻辑隔离与运行时环境安全 边界渗漏 上下文泄漏 阻尼机制信任根失效 → 私密暴露 轴C 跨域资源请求与 Web 载荷安全 恶意页面 链式扩张 欺诈载荷 → Web 洪水 轴D 多代理协同中的语义一致性风险 消息欺诈 权限不符 OS 调用 → 级联信任根失效 ⚠ 跨层风险演化 #2(执行面前向 · Cross-layer Risk Evolution) 轴A/D:权限爬升 + API 洪泛 · 轴C:URL 牵引的多跳工具 · 轴B:沙箱穿透导致私密上下文进入规划 对齐 Gentel:gw_mcp / gw_sandbox → ac_api / ac_rollback → 安全违例侧(权限外泄 / 物理破坏) L3 基础设施层 去中心化身份 · 确定性实体确权与供应链溯源底座 · 指纹/水印与供应链完整性 2026–2030 规划侧重:身份可信(DID/VC、Agent Passport)、模型指纹与供应链溯源;数学可信(形式化验证、隐私保护推理);生态与评测可信(多智能体信任与共谋治理、HAAF/全息评测、实验平台);可认证世界模型安全(21.4)。 ★ 2026–2030 身份·数学可信 · Passport / 指纹 · 评测生态 · 21.4 L3 · 三轴线风险传导 轴Ⅰ 去中心化身份 (DID) 与归因根 伪造 DID P2P 越权干预 图谱一致性信任根失效 安全违例:信任根失效 轴Ⅱ 模型资产确权与供应链完整性 窃取/迁移 后门关联 对抗擦除 安全违例:确权信任根失效 轴Ⅲ 异构工具编排的统计安全性监测 混合权重扰动 统计污染 路由越权干预 安全违例:调用畸变