权限边界
Agent 什么时候可以执行工具?什么时候必须停下来等人审批?
开场
OpenHive 是一个开源控制平面,用来创建、运行和治理 Agent 系统:平台级监控、项目级协作、渠道助手、审批、审计、隔离执行和可控演进统一在一个操作模型里。
受众:技术团队、生产团队、后台/平台运营同学。可用方向键或底部控件翻页,按 F 进入/退出全屏,浏览器可直接打印为 PDF。
生产断层
Agent 什么时候可以执行工具?什么时候必须停下来等人审批?
每次决策、Prompt、工具调用、变更和回滚都要可追踪。
代码、命令、供应商密钥和业务凭据不能混在一个不受控进程里。
自我改进必须经过评估、审批、发布和回滚,而不是无约束自改。
OpenHive 是什么
它不是单一垂直应用,也不是聊天助手框架;它提供统一运行时、可信扩展、审批边界、审计回放、隔离执行和多 Agent 编排。
谁能运行、能运行什么、用什么模型、触达什么资源。
评估、审批、审计、发布和回滚成为一等产品能力。
业务行为来自模板、插件、技能包和策略,而不是写死在核心运行时。
平台形态
Agent 角色
平台监控 Agent,负责平台健康、异常窗口、Keeper 静默检测和平台级审计线索。
项目经理 Agent,协调项目、分析信号、提出变更、管理 Scout 和工作流。
群组或渠道助手,响应用户、执行已安装技能、收集反馈和上下文。
面向受控任务或沙箱执行的工作角色,承接更强隔离或更专门的执行路径。
周期性分析、分类、告警、报告和 Prompt Shadow 的后台执行路径。
平台操作员
管理员可以查看 Queen 心跳、最近运行、连续健康、失败窗口、下次计划运行。
Queen 关注平台异常、静默 Keeper、漏跑任务和需要运维关注的状态。
Queen 事件进入平台审计,运行详情可以与具体修复、Diff 和审批记录关联。
对生产团队来说,Queen 是“平台值班视角”;对技术团队来说,Queen 是平台健康、调度和运行时治理的可观测入口。
项目经理 Agent
创建和管理 Scout,组织项目工作流和协作上下文。
处理反馈队列、运行评估、识别变更候选。
生成可评审的变更、技能演进或工作任务,而不是直接改生产行为。
在审批和能力边界内驱动工具、技能和沙箱工作。
一线协作入口
Feishu / Lark 是当前基线集成,未来可扩展到更多消息提供方。
Scout 只能执行已安装、已分配、符合凭据声明的技能。
Scout 收集现场信号,Keeper 分析,生产负责人通过审批和审计确认。
单运行时原则
Queen、Keeper、Scout、Worker 共享运行时循环、工具治理、上下文治理和观测模型。
核心运行时保持业务无关;业务价值由插件、技能、模板、策略注入。
安全边界、审批恢复、工具计划和审计链路可以在同一运行时模型上验证。
Docker / K8s / 本地隔离
默认可快速启动,但 in-process LocalAgentPool 不是硬进程边界。
隔离 Agent 运行时,清理继承环境变量,并通过网关中继访问模型。
将 Agent / Sandbox / Pipeline 任务放入更清晰的运行容器边界。
通过 Pod、NetworkPolicy、健康检查和烟测逐步证明生产拓扑。
表达要精确:当前预览路径是产品评估入口;更强的密钥驻留与网络边界需要显式隔离路径和部署验证。
Credential Proxy / Provider 管理
供应商密钥和集成凭据应尽量停留在 Gateway 或明确可信的密钥持有角色中。
Provider Secret 可由管理员管理,加密存储,读取时只返回遮罩状态,不返回原始值。
隔离运行时通过 Gateway Relay 获得受预算、受模型 allowlist 和受作用域限制的访问。
RunState / ToolExecutionPlan
运行时接收工具名、参数和上下文。
记录能力、参数摘要、幂等键和策略决策。
RunState 进入 awaiting_approval,副作用尚未发生。
批准、拒绝、过期或要求更多上下文都进入审计。
批准后只执行一次;拒绝后模型收到安全的工具结果。
影子 Prompt 测试
Pipeline 正常运行当前生产 Prompt,结果继续服务真实通知和工作流。
同一 Pipeline 步骤使用 shadow_prompt 再跑一次,产出候选输出。
系统保存生产/影子差异,Dashboard 中待 PM 或生产负责人审批后才推广。
Prompt Shadow 让“调 Prompt”从手工猜测变成可比较、可审计、可回滚的上线流程。
Self-evolution, but governed
反馈、失败、误判、重复需求和运行后复盘候选。
Keeper 或演进插件生成技能、Prompt、内存或策略修改建议。
运行测试、Prompt Shadow、Diff、证据和安全扫描。
人类负责人决定是否推广到本地安装副本或项目配置。
历史和审计让生产团队可以追责与恢复。
Plugin / Skill / Marketplace
无状态能力单元,以 JSON stdin/stdout 子进程运行,不直接共享核心状态。
接入渠道、策略、卡片动作、演进逻辑等平台能力。
把模板、技能包、策略和蓝图组合为可复用工作负载起点。
安装、升级、编辑、推广和执行都进入权限、审计和本地副本管理。
生产可见性
项目概览、Agent 状态、运行、会话、工作任务、配置和技能治理。
跨项目用量、趋势、成本线索和运行规模视图。
平台事件、项目变更、Diff、审批和 Queen 事件的审计入口。
Queen 监控、用户准入、Provider 管理、平台 AI 治理和运行时维护。
首批试点
编码支持、技术研究、文档流程、内部运营助手;适合技术团队先吃自己的狗粮。
周期性分析、生态跟踪、告警、报告生成;适合生产团队验证持续运行价值。
支持、产品、区域或流程专属 Agent,在共享策略和发布控制下扩展。
从 Preview 到 Production-facing
本地 Docker PostgreSQL、FastAPI、Next.js,验证产品路径与团队协作。
引入分离进程、环境清理、Relay 模型访问和密钥驻留验证。
把受控命令、工作区任务、Patch 审批和日志采集放到容器边界。
用 Pod、NetworkPolicy、健康检查、烟测和发布验证支撑更强部署模型。
试点前必须回答
本次建议
最好的第一步不是铺开很多 Agent,而是选择一个重复发生、价值可衡量、审批责任清晰、失败可回滚的生产场景。
一个业务/平台工作流,一个 Owner,一个衡量指标。
隔离模式、密钥驻留、工具审批、Prompt Shadow 和回滚规则。
Queen 监控平台,Keeper 管项目,Scout 进渠道,Pipeline 做影子评估。