智能体跨层风险传播与三层可信治理体系(技术路线图谱)
浙江大学滨江研究院 · 数智融合研究中心(IFRC)— 宽轴带内嵌论文标题与风险阶段同一传导泳道
多轴线风险前向(每层并行传导)
治理反馈 / 证据上行
论文标题嵌入轴线泳道(悬停看全文)
金色描边与 ★2026–2030:标示规划侧重(L1/L2 右上,L3 底部居中;悬停可看概要)
电力基础设施
调度 · 工控语义 · 高可信推理
金融决策交易
合规条款 · 实时决策 · 证据链
具身智能机器人
感知–规划–执行闭环
泛政务服务
多智能体协同 · 民众交互
身份凭据伪造与跨域信任注入
投毒 MCP 工具
对抗性语言输入
模糊高危指令
L1 认知决策层
语义空间诱导防御与意图对齐约束 · 潜空间事实偏离抑制 · 内生表征与安全对齐
2026–2030 规划侧重(认知可信):推理与测试时 RL 安全(TTRL)、RAG 白盒忠实度与记忆治理、机械可解释性(SAE)、机器遗忘、长期记忆投毒与世界模型表征风险(方向 21.1)等。
★ 2026–2030
认知可信 · SafeTTRL / RAG·记忆 / SAE · 21.1
L1 · 三轴线风险传导
轴α 指令解析与意图对齐空间
对抗提示
潜意图失真
解码偏好偏移
↓ 工具触发偏见
轴β 知识增强中的事实性偏差传播
检索噪声
双路径分歧
证据断裂
↓ 幻觉下行
轴γ 潜空间对抗表征偏移
表征混合
对齐塌陷
token 逸出
↓ 护栏静默
⚠ 跨层风险演化 #1(多轴汇合 · Cross-layer Risk Evolution)
轴α/γ:潜空间污染 → MCP 工具抉择失真 · 轴β:错误证据沿上下文注入协议负载
对齐 Gentel:br_intent 下行 → ac_api 之前的语义意图向执行原语的映射阻抗破裂风险
L2 代理集成层
Model Context Protocol(MCP)· 代理执行原语的安全映射与协议边界加固
2026–2030 规划侧重(执行可信):多模态与跨模态安全、具身语义—物理执行鸿沟、OS 级智能体沙箱与工具最小权限、工具收据与可验证执行、可控世界模型闭环评估与安全预演(方向 21.3)等。
★ 2026–2030
执行可信 · Runtime Shield / 权限·收据 / 21.3
L2 · 四轴线风险传导
轴A 上下文注入协议风险 (MCP Surface)
伪造 tools
语义穿透
JSON 污染
→ ac_api 信任根失效
轴B 逻辑隔离与运行时环境安全
边界渗漏
上下文泄漏
阻尼机制信任根失效
→ 私密暴露
轴C 跨域资源请求与 Web 载荷安全
恶意页面
链式扩张
欺诈载荷
→ Web 洪水
轴D 多代理协同中的语义一致性风险
消息欺诈
权限不符
OS 调用
→ 级联信任根失效
⚠ 跨层风险演化 #2(执行面前向 · Cross-layer Risk Evolution)
轴A/D:权限爬升 + API 洪泛 · 轴C:URL 牵引的多跳工具 · 轴B:沙箱穿透导致私密上下文进入规划
对齐 Gentel:gw_mcp / gw_sandbox → ac_api / ac_rollback → 安全违例侧(权限外泄 / 物理破坏)
L3 基础设施层
去中心化身份 · 确定性实体确权与供应链溯源底座 · 指纹/水印与供应链完整性
2026–2030 规划侧重:身份可信(DID/VC、Agent Passport)、模型指纹与供应链溯源;数学可信(形式化验证、隐私保护推理);生态与评测可信(多智能体信任与共谋治理、HAAF/全息评测、实验平台);可认证世界模型安全(21.4)。
★ 2026–2030
身份·数学可信 · Passport / 指纹 · 评测生态 · 21.4
L3 · 三轴线风险传导
轴Ⅰ 去中心化身份 (DID) 与归因根
伪造 DID
P2P 越权干预
图谱一致性信任根失效
安全违例:信任根失效
轴Ⅱ 模型资产确权与供应链完整性
窃取/迁移
后门关联
对抗擦除
安全违例:确权信任根失效
轴Ⅲ 异构工具编排的统计安全性监测
混合权重扰动
统计污染
路由越权干预
安全违例:调用畸变