关键系统中集成人工智能的新框架
从确定性到涌现性:关键系统中集成人工智能的新框架
第1节 引言:两种范式的叙事
1.1. 确定性指令
在国防系统的工程历史中,一个核心理念始终占据主导地位:对绝对可预测性和可验证性的追求。这一理念在“任务关键型”(mission-critical)系统中体现得淋漓尽致,这些系统中的任何失效都可能导致灾难性后果。美国海军的“宙斯盾”作战系统(Aegis Combat System)便是这一范式的典型代表。它是一个高度复杂、与生命安全直接相关的系统,其设计哲学要求在任何可预见的操作场景下,其行为都必须是完全确定和可验证的 1。这种对确定性的严格要求,构成了传统国防科技的基石,确保了在最严峻的环境下系统的可靠性与安全性。
1.2. 生成式AI的涌现性革命
与确定性指令形成鲜明对比的是,近年来以大型语言模型(Large Language Models, LLMs)为代表的人工智能技术迅速崛起,开启了一场“涌现性”革命。这些系统并非基于明确编程的规则,而是通过在海量数据集上进行训练,以概率方式运作 3。它们的显著特征是具备“涌现能力”(emergent abilities)——即在模型规模达到一定程度后,会自发表现出未被明确设计的复杂能力,如上下文学习和推理 3。这种本质上的概率性和非确定性,对传统的验证与确认(Verification and Validation, V&V)流程构成了根本性的挑战,因为我们无法穷尽其所有可能的行为空间。
1.3. 论文主旨与报告结构
当前,国防现代化面临一个关键挑战:如何在坚持任务关键型系统所需的高可靠性与安全性的同时,有效利用商业AI带来的创新潜力?将这两种技术范式视为不可调和的对立面——即“任务关键型”与“商业级AI”的二分法——是一种日益过时的简化论。本文的核心论点是,一个更为复杂和集成的框架不仅是可能的,而且正在通过三个关键领域的融合而积极构建。这三个领域分别是:(1)作为理论基础的混合关键性系统(Mixed-Criticality Systems, MCS)理论;(2)作为架构范式的模块化开放系统方法(Modular Open Systems Approach, MOSA);(3)作为程序性保障的可信自主技术政策与规程。本文旨在解构旧有的二元对立观点,并提出一个基于这三大支柱的全新综合模型。
第2节 支柱I:保障的架构——任务关键型系统剖析
本节旨在为理解“任务关键型”系统提供一个深入的技术基础,超越通俗定义,阐明支撑这些平台的精确工程学和计算机科学原理。
2.1. 定义硬实时系统
任务关键型系统的核心是硬实时(hard real-time)计算的概念。其基本定义是:系统的正确性不仅取决于计算的逻辑结果,还取决于产生这些结果的时间 6。在硬实时系统中,时序约束是极其严格的,任何一次未能满足截止时间(deadline)的行为都被视为一次彻底的系统故障 7。这种故障可能导致灾难性后果,例如设备损坏、任务失败甚至人员伤亡 1。这一定义是区分硬实时系统与软实时(soft real-time)或强实时(firm real-time)系统的根本标准,后两者对错过截止时间有一定的容忍度 8。
一个普遍的误解是将“实时”等同于“高速”。然而,硬实时系统的关注点并非原始的计算速度,而是可预测性(predictability)和在规定时间内完成任务的能力 6。系统的运行速度必须足以满足其时序要求,不多也不少。这种对时间精确性的强调,构成了任务关键型系统设计的哲学基础。
2.2. 确定性原则
确定性(Determinism)是实现硬实时保障的核心原则。一个确定性系统能够保证任务在可预测的、固定的时间范围内执行,并且对于给定的输入,每次都能产生相同的输出 9。这种行为的可预测性是通过实时操作系统(Real-Time Operating System, RTOS)的一系列特定功能来实现的。这些功能包括:
基于优先级的抢占式调度(Priority-based Preemptive Scheduling): RTOS确保更高优先级的任务能够随时中断(抢占)较低优先级的任务,从而优先获得处理器资源。这保证了最关键的任务总能最先得到处理 7。
确定性资源分配(Deterministic Resource Allocation): 系统对内存、处理能力和其他资源的分配是高效且可预测的,以支持实时的性能要求 9。
任务同步机制(Task Synchronization): RTOS提供诸如信号量(semaphores)和消息队列等机制,用于协调多个任务之间的交互和资源共享,防止出现竞争条件和死锁 9。
为了对系统的时序行为进行数学分析,工程师们引入了“最坏情况执行时间”(Worst-Case Execution Time, WCET)的概念。WCET是对一个任务在任何可能情况下完成所需的最长时间的悲观估计.7 系统的可调度性分析(schedulability analysis)正是基于这些最坏情况的参数来进行的,以证明即使在系统负载最极端的情况下,所有关键任务也绝不会错过其截止时间。
整个任务关键型系统的设计哲学可以被描述为一种“结构化的悲观主义”。它从不假设平均或最佳情况,而是围绕最坏情况进行设计和验证——例如,假设所有高优先级任务在同一时刻被触发。系统必须通过数学证明,即使在这种极端条件下也能满足所有时序约束。这种文化与机器学习领域中通常由数据驱动、追求概率最优和平均性能表现的文化形成了鲜明的思想冲突。前者旨在证明失败的不可能性,而后者则致力于优化成功的可能性。
2.3. 案例研究:“宙斯盾”作战系统的演进
传统的“宙斯盾”作战系统是任务关键型系统的缩影。它是一个高度集成、为特定任务定制的系统,其设计目标是在旧有范式下实现最大程度的可靠性与保障 11。然而,即便是这样坚固的系统,也面临着现代化需求的巨大压力。为了应对不断变化的威胁、降低成本并加速新能力的部署,美国海军已开始将“宙斯盾”系统向开放式架构(Open Architecture, OA)和商用现货(Commercial Off-The-Shelf, COTS)硬件模型过渡 11。
这一转变揭示了一个深刻的趋势:即使是最关键的系统,也受到强大的经济和战略力量的驱动,不得不走向模块化和开放性。传统的、以数年为周期的单体式升级模式,在成本和响应速度上已难以为继 11。根据兰德公司的一份报告,新的业务模型旨在通过持续的软件和硬件升级,将升级覆盖率从旧模式下的21%提升至现代化舰队的96%,同时将软硬件的平均使用年限大幅缩短 11。这一案例清晰地表明,推动系统架构演进的压力不仅来自技术层面,更源于在不断变化的战略环境中维持竞争优势的根本需求。这种向模块化的演进,无意中为未来集成包括AI在内的新技术铺平了道路,因为它打破了原有封闭系统的壁垒。
第3节 支柱II:涌现的架构——解构大型语言模型
本节将深入解析现代生成式AI背后的核心技术,重点关注那些赋予其独特能力并同时导致其非确定性本质的架构创新。
3.1. Transformer架构与自注意力机制
2017年,一篇名为《Attention Is All You Need》的论文引入了Transformer架构,这被视为自然语言处理领域的一个里程碑事件。该架构彻底取代了先前主流的循环神经网络(RNN)及其变体(如LSTM)的设计 4。Transformer的核心创新在于其“自注意力”(self-attention)机制。该机制允许模型在处理输入序列时,并行地计算序列中每个词(token)对其他所有词的重要性权重 3。这使得模型能够更全面地理解上下文关系,并极大地提升了训练过程的并行化效率,从而为在海量数据上训练超大规模模型提供了可能。
3.2. 概率性生成与规模法则
从根本上说,大型语言模型是统计模型。它们通过学习庞大文本语料库中词与词之间的概率关系来生成文本,其核心任务是预测给定上下文后的下一个词元 3。模型的输出不是确定性的,而是一个基于概率分布的采样结果。这种概率性是其灵活性和创造力的来源,也是其行为不可完全预测的根源。
LLM的发展遵循着所谓的“规模法则”(scaling laws)。该法则指出,模型的性能(在特定任务上的表现)会随着三个关键因素的增加而可预测地提升:模型的大小(参数数量)、训练数据集的大小以及用于训练的计算量 3。这一发现推动了业界竞相构建参数量从数十亿到数万亿不等的巨型模型,因为更大的规模往往意味着更强的能力。
3.3. 涌现能力与非确定性
当模型规模达到某个临界点后,它们会表现出一些在小模型上不存在的、未被直接编程的复杂能力,这被称为“涌现能力” 3。这些能力包括:
上下文学习(In-context Learning): 无需重新训练,模型仅通过在提示中给出少量示例,就能学会执行新任务 3。
指令遵循(Instruction Following): 经过特定微调后,模型能理解并遵循自然语言指令来完成各种任务 3。
思维链推理(Chain-of-Thought Reasoning): 模型能够通过生成一系列中间推理步骤来解决复杂问题 14。
这些涌现能力是LLM强大功能的体现,但同时也加剧了其不可预测性。系统的行为是其复杂的内部状态、海量训练数据和精巧架构共同作用的结果,而非一套形式化的、可供检验的规则。因此,对LLM进行穷尽式的验证与确认在实践中是不可能的 4。
这种特性颠覆了传统的系统工程验证模型。传统系统是自下而上构建和验证的:从经过验证的组件开始,逐步构建并验证整个系统的行为。而LLM则反其道而行之:系统级的宏观能力(如语言理解)首先“涌现”出来,然后研究人员再尝试自上而下地分析和理解其背后的微观机制。这意味着,对于LLM,我们无法像验证RTOS那样去“验证”其内部逻辑的正确性,而只能通过大规模的测试与评估(T&E)来“表征”其外部行为的可靠性。
进一步看,LLM的“黑箱”特性不仅是一个待解决的缺陷,在某种程度上也是其强大泛化能力的来源。正是这种无法被完全解释的复杂性,赋予了模型处理前所未见任务的能力。因此,在任务关键型系统中集成LLM的目标,或许不应是追求将其内部逻辑完全“白盒化”,而应聚焦于构建一个强大的外部架构,该架构能够可靠地约束其行为边界,并对齐输出进行有效管理和监控。这代表了一种从理论上的形式化验证转向工程实践中的风险管理的务实思路。
第4节 解构二分法:单一视角的谬误
本节将直接回应本报告的核心议题:对“任务关键型”与“AI驱动”系统之间二元对立观点的批判性评估。我们将首先通过一个对比表格,清晰地展示这两种范式在传统认知中的巨大差异,然后系统性地论证为何这种将二者视为相互排斥的观点已不再适用。
4.1. 两种哲学的对比
为了明确传统观点中的对立性,下表从多个维度对两种技术范式进行了比较。这个表格所呈现的,正是本报告后续章节将要解构的“稻草人”论点。
表1:系统特性对比分析(任务关键型系统 vs. 基于LLM的AI系统)
4.2. 核心挑战
表1清晰地揭示了两种范式之间的深刻矛盾。这引出了一个核心的工程问题:一个要求行为必须具备确定性保障的系统(支柱I),如何才能安全、有效地集成一个本质上是概率性的组件(支柱II)?如果一个系统的正确性取决于微秒级的精确响应,那么引入一个其响应时间和内容都无法被严格预测的组件,似乎是一个无法解决的悖论。
4.3. 超越二元对立
将系统视为一个整体,并将其贴上“任务关键型”或“AI驱动”的标签,是导致上述悖论的主要认知误区。现实世界中的复杂系统,尤其是国防平台,并非铁板一块。它们是由大量不同功能模块组成的集合体,而这些功能模块本身具有截然不同的关键性等级。例如,一架战斗机的飞行控制系统无疑是最高等级的任务关键型功能,其失效是不可接受的。然而,同一架飞机上的任务规划辅助系统或通信管理系统,虽然同样重要,但其失效模式和对即时性的要求则完全不同。
因此,真正的挑战不在于将一个“非确定性”的AI硬塞进一个“确定性”的系统中,而在于如何在一个统一的架构内,对不同关键性等级的功能进行有效隔离、调度和管理。这种更为精细化的视角,为我们引入混合关键性系统(Mixed-Criticality Systems)理论奠定了基础,该理论正是解决这一挑战的关键。
第5节 一个更精细的框架:来自混合关键性系统(MCS)的启示
本节将介绍一个关键的理论概念,它为调和确定性与概率性这两种范式提供了可能。混合关键性系统(MCS)理论并非一个晦涩的学术概念,而是设计下一代集成化智能系统的核心思想工具。
5.1. Vestal (2007) 的奠基性工作
2007年,Steve Vestal发表了一篇开创性的论文,首次对混合关键性系统问题进行了形式化定义 17。其核心洞见在于:为一个任务的最坏情况执行时间(WCET)提供保障的“置信度”本身是一个可变参数 20。一个安全关键型(safety-critical)任务,需要一个经过极其严格分析和验证的、高度悲观的WCET估值。相比之下,一个关键性较低的任务,则可以使用一个更为乐观的、基于典型情况的执行时间估值来进行调度分析 18。
这意味着,系统中的每个任务可以拥有多个WCET值,每个值对应一个不同的保障等级(或关键性等级)。例如,一个任务可能有一个在$10^{-9}$失效率下得到保证的WCET(高关键性),以及一个在$10^{-3}$失效率下得到保证的WCET(低关键性) 22。
5.2. 实践中的MCS模型
基于Vestal的模型,一个典型的混合关键性系统可以在不同的“模式”下运行。
低关键性模式(LO-criticality mode): 在正常情况下,系统处于此模式。调度器假设所有任务(包括高关键性和低关键性任务)都能在其较为乐观的WCET预算内完成。系统会同时为所有任务提供服务 19。
高关键性模式(HI-criticality mode): 当某个高关键性任务的实际执行时间超出了其乐观的WCET预算(但仍未超过其悲观的WCET预算)时,系统会立即切换到高关键性模式 23。
在这种高关键性模式下,为了确保所有高关键性任务都能在其悲观的WCET保证下满足截止时间,系统会采取紧急措施。最常见的措施是立即暂停或彻底放弃所有低关键性任务的执行,从而将全部计算资源释放给高关键性任务 23。这种模式切换机制,确保了在资源紧张的异常情况下,系统的核心安全功能得到绝对优先的保障。
5.3. MCS作为理论桥梁
混合关键性系统理论为我们在第4节中提出的核心挑战提供了形式化的解决方案。它允许我们将一个本质上非确定性的AI组件(例如一个用于辅助决策的LLM)集成到一个需要确定性保障的系统中。我们可以将这个AI组件定义为一个“低关键性”任务。
在系统正常运行时(低关键性模式),AI任务可以利用空闲的计算资源运行,为操作员提供建议或分析。如果AI任务出现行为异常,例如计算时间过长或消耗过多内存,从而威胁到高关键性任务(如飞行控制)的资源供应时,MCS调度器可以依据预设的规则,将其优先级降低,甚至直接终止其运行,从而确保高关键性功能不受任何影响。
这种方法从根本上改变了问题的性质。它不再追问“我们如何形式化地验证这个概率性的AI?”,这是一个几乎无解的问题。取而代之,它提出了一个更具工程实践性的问题:“我们如何设计一个资源管理和调度框架,以确保这个无法被完全验证的组件,在任何情况下都不会导致可被验证的关键组件失效?” MCS通过提供一种可预测的、优雅的降级机制,为非确定性组件的“爆炸半径”划定了清晰的边界,从而实现了安全与创新的统一。这正是连接国防部政策(如DoDD 3000.09中对最小化失效后果的要求)与具体工程实现的缺失环节。它提供了一种技术手段,以确保即使AI组件出现故障,整个系统也能以一种可控和安全的方式降级,从而维护操作员的最终控制权和生命关键功能的完整性。
第6节 弥合差距 I:通过模块化开放系统方法(MOSA)实现架构集成
如果说混合关键性系统(MCS)是理论基础,那么模块化开放系统方法(MOSA)就是其实际的架构使能者。本节将阐述美国国防部向开放标准的战略转移,如何创建了物理和逻辑上的“插槽”,使得包括AI在内的新技术能够被方便地插入、管理和升级。
6.1. MOSA的战略指令
MOSA并非单一的技术标准,而是一项由美国国防部强制推行的、集成的商业与技术战略,其目标是设计和采购可负担、可适应且具竞争力的国防系统 26。这项战略已通过立法形式(如《美国法典》第10篇)成为主要国防采办项目的法定要求 27。
MOSA的核心原则包括 27:
模块化设计(Modular Design): 将系统分解为功能内聚、耦合松散的模块。
采用开放标准(Open Standards): 接口遵循广泛支持的、基于共识的标准。
定义关键接口(Designate Key Interfaces): 明确模块间的交互方式和数据格式。
可分离组件(Severable Components): 模块可以被独立替换、升级和采购,从而引入竞争,打破供应商锁定。
6.2. 实践中的MOSA生态系统
MOSA的理念通过一系列具体的、领域相关的技术标准和架构框架得以实现。这些标准共同构成了一个强大的生态系统,推动着国防系统的现代化。
未来机载能力环境(FACE™): 该标准专注于机载电子系统中的软件可移植性。FACE定义了一个五段式参考架构:操作系统段(OSS)、可移植组件段(PCS)、传输服务段(TSS)、平台特定服务段(PSSS)和输入/输出服务段(IOSS) 31。通过标准化的API,符合FACE标准的软件应用(称为“可移植性单元”,UoP)可以轻松地在不同硬件平台和操作系统之间迁移,极大地促进了软件的重用 30。
传感器开放系统架构(SOSA™): 该标准主要关注指挥、控制、通信、计算机、情报、监视和侦察(C4ISR)系统中的硬件和软件互操作性。SOSA通过对现有的行业标准(如VITA OpenVPX)进行约束和规范,确保来自不同供应商的硬件模块(如计算卡、射频模块)可以在物理和逻辑上兼容,从而加速技术集成并降低成本 35。
下表总结了MOSA生态系统中关键组成部分的角色和关系,揭示了它们如何协同工作,为AI集成提供基础。
表2:模块化开放系统方法(MOSA)生态系统
6.3. MOSA作为“体系”的使能者
MOSA为混合关键性系统的实现提供了具体的物理和软件架构。它描绘了这样一幅蓝图:在一个符合SOSA标准的机箱内,一块SOSA对齐的计算卡上运行着一个经过FACE认证的硬实时操作系统(OSS)。这个操作系统可以同时托管多个不同关键性等级的软件组件:一个是用传统方法开发、经过严格验证的安全关键型飞行控制应用;另一个则是一个关键性较低、基于AI的目标识别模块。这两个组件通过FACE标准的传输服务段(TSS)进行通信,实现了功能分离和资源隔离。
当需要升级AI算法时,由于采用了MOSA,开发人员可以只替换那个AI软件模块,而无需触及系统的其他部分。如果需要更强的计算能力,可以换上一块新的、性能更强的、但同样符合SOSA标准的计算卡。这种“即插即用”的能力,正是MOSA战略的核心优势,它将过去需要数年才能完成的系统升级,转变为可以快速迭代的模块化更新,从而为在任务关键型系统中安全、高效地集成和演进AI技术提供了坚实的工程基础。
第7节 弥合差距 II:可信自主的政策与程序
本节将探讨实现安全AI集成的最后一个关键要素:治理框架。我们将深入分析美国国防部第3000.09号指令(DoD Directive 3000.09),并论证该指令并非AI发展的障碍,而是一个旨在管理非确定性系统固有风险、确保有意义的人类监督的结构化流程。
7.1. 深入解读国防部第3000.09号指令
DoDD 3000.09为自主和半自主武器系统的开发与使用制定了核心政策 15。该指令的核心思想并非禁止自主,而是为其设定了严格的程序性护栏。其中,对验证与确认(V&V)和测试与评估(T&E)的要求尤为突出。指令明确规定,所有自主系统必须经过“严格的软硬件V&V”和“在现实操作环境中,针对自适应对手的、现实的系统开发与作战T&E” 15。
这种对程序严谨性的强调,是政策层面对于AI技术缺乏形式化可验证性的一种直接回应。它隐含地承认,未来的复杂系统无法再通过传统的数学方法来穷尽证明其正确性。因此,保障系统安全的重心从“事前”的形式化证明,转移到了“事后”的、通过大量经验性证据来建立信任。该指令本质上构建了一个“信任但要验证”的框架,即:我们无法证明系统在所有情况下都是完美的,因此我们必须通过极其严苛和贴近实战的测试来表征其行为,并设计确保人类能在其不完美时进行干预的机制。
7.2. “适当水平的人类判断”原则
“自主和半自主武器系统的设计必须允许指挥官和操作员对武力的使用行使适当水平的人类判断”,这是DoDD 3000.09中最核心的原则之一 15。其中,“适当”(appropriate)一词的选用极具深意,它并非一个一成不变的僵化标准,而是承认不同场景下人类介入的程度和方式可以有所不同。
为了实现这一原则,指令对人机界面(Human-Machine Interface, HMI)提出了明确要求 15:
易于理解: HMI必须对受过训练的操作员来说是“易于理解的”。
状态透明: 必须提供关于系统状态的“透明反馈”。
控制清晰: 必须提供“清晰的程序”供操作员激活和停用自主功能。
这些要求催生了一种“为监督而设计”(Design for Oversight)的工程理念。这意味着AI组件不能被简单地“附加”到现有系统上。整个系统,包括AI算法和HMI,都必须从一开始就被设计成一个协同工作的整体,确保人类操作员始终保持情境感知,并拥有最终的决策权和控制权。HMI不再是一个次要的附件,而是与AI算法同等重要的核心系统组件。
7.3. 高层审查流程
DoDD 3000.09还建立了一个严格的高层审查流程。任何新的自主武器系统,在进入正式开发阶段前和正式部署前,都必须经过一个由国防部政策、研发、采办等多个部门以及参谋长联席会议代表组成的委员会的审查和批准 15。
这一流程具有双重意义。首先,它确保了问责制,将部署自主武器系统的决策权置于国防部的最高层级。其次,它强制要求项目在早期阶段就必须清晰地阐述系统的预期功能、作战概念、局限性以及失效模式,并完成法律合规性审查 15。这迫使开发者从一开始就以一种负责任和系统化的方式来思考和设计自主系统,而不仅仅是追求技术性能的提升。这个流程确保了技术的应用始终与战略目标、法律规范和伦理原则保持一致。
第8节 综合案例研究:DARPA的“空中战术进化”(ACE)项目
本节将作为一个综合性的案例,展示前述所有概念——任务关键型需求、AI能力、人类监督和模块化架构——如何在DARPA的一个前沿研究项目中融为一体。ACE项目不仅是技术的试验场,更是新一代人机协同作战理念的孵化器。
8.1. 项目概述:空战中的AI
DARPA的ACE项目旨在通过解决视距内(Within-Visual-Range, WVR)空战(即“狗斗”)的挑战,来提升对作战自主系统的信任,并最终实现有效的人机协同 16。选择“狗斗”作为研究问题具有深刻的意义。这是一个高度动态、瞬息万变、容错率极低的硬实时环境。在这个环境中,任何微小的延迟或错误的决策都可能导致直接的、灾难性的后果 16。因此,它为测试和验证AI在最极端任务关键型场景下的性能提供了理想的试验平台。
8.2. ACE作为一个混合关键性智能系统
ACE项目的架构是混合关键性系统(MCS)理论的一个生动实践。在该项目中,一架经过特殊改装的F-16试验机(代号X-62A)被用作AI的飞行平台 45。我们可以将这个系统解构为不同的关键性层级:
最高关键性层级: X-62A飞机的核心飞行控制系统。这个系统负责维持飞机的空气动力学稳定和基本飞行安全,其可靠性是绝对不容妥协的。
次级关键性层级: 由AI代理控制的战术机动系统。这个AI负责在空战中做出战术决策,控制飞机进行机动以获得优势位置。它的目标是赢得空战,但其行为必须在一个由核心飞控系统和人类飞行员共同设定的安全包线内进行。
监督与干预层级: 机上的人类安全飞行员。他们可以随时接管飞机控制权,这代表了MCS中最终极的“模式切换”——从AI控制模式切换到人工控制模式,以保障生命安全这一最高优先级任务。
在这个架构中,AI并不负责防止飞机坠毁,而是负责在预设的安全边界内执行战术任务。这种责任划分清晰地体现了MCS的核心思想:通过分层和隔离,将非确定性的、高风险的AI功能,置于一个确定性的、高保障的安全框架内运行。
8.3. 重新定义人类角色:从操作员到任务指挥官
ACE项目的一个明确目标,是将飞行员的角色从一个专注于驾驶杆和油门操作的“平台操作员”,转变为一个负责更高层次认知任务的“任务指挥官” 16。在ACE的设想中,当AI负责具体的战术机动时,人类飞行员可以将注意力解放出来,用于进行战场态势感知、多机协同管理、武器分配和制定整体交战策略等更为复杂的决策 16。
这完美地诠释了DoDD 3000.09指令中“适当水平的人类判断”的内涵。人类不再对AI进行微观管理,而是像指挥一个可信赖的僚机一样对其下达指令,并在必要时进行干预。ACE项目投入大量精力来测量、校准和提升飞行员对AI的“信任”,这本身就表明,人因工程和人机交互已被视为与AI算法本身同等重要的核心技术挑战 16。
8.4. 从ACE到AIR:扩展信任与能力
ACE项目的成功为后续发展奠定了基础。DARPA启动了名为“人工智能增援”(Artificial Intelligence Reinforcements, AIR)的后续项目。AIR项目旨在将ACE在视距内单机空战中验证的理念和技术,扩展到更为复杂、更贴近实战的超视距(Beyond-Visual-Range, BVR)、多机协同作战场景中 47。这种从一个相对封闭、可控的问题域,逐步扩展到一个更开放、更具挑战性的作战环境的演进路径,展示了一种深思熟虑的、渐进式的策略,旨在系统性地构建对更高级别自主系统的信任和能力。
第9节 结论:迈向任务集成智能系统的统一框架
本报告通过对任务关键型系统和大型语言模型AI的深入剖析,旨在解构两者之间看似不可逾越的鸿沟。分析表明,将确定性与涌现性视为零和博弈的二元对立观点,已无法适应现代国防系统发展的复杂需求。一个更为精细、集成和务实的框架正在浮现。
9.1. 总结:对旧范式的解构
本文首先确立了两种技术范式的核心特征:任务关键型系统以其对确定性、可验证性和最坏情况保障的执着追求为标志;而商业级AI则以其概率性、数据驱动和强大的涌现能力为特点。传统的二分法认为这两种哲学不可调和。然而,通过引入混合关键性系统(MCS)的理论视角、模块化开放系统方法(MOSA)的架构实践,以及可信自主政策的程序性护栏,我们证明了这种二分法是一种误导性的简化。现实中的系统并非单一属性的整体,而是由不同关键性等级功能组成的复杂集合。
9.2. 提出新框架:“受控、模块化、混合关键性”(M3C)模型
基于上述分析,我们正式提出一个用于指导未来任务关键型系统中AI集成的统一框架,称之为“受控、模块化、混合关键性”(Managed, Modular, Mixed-Criticality, M3C)模型。该模型建立在三大支柱之上:
混合关键性理论(Mixed-Criticality Theory): 作为理论基础,它提供了形式化的调度和资源管理原则,允许不同保障等级的功能(从确定性的飞控到概率性的AI)安全地共存于同一计算平台。它通过模式切换和资源抢占机制,确保在任何情况下,高关键性功能都得到绝对保障。
模块化开放系统方法(MOSA): 作为架构基础,它提供了实现组件集成、隔离和可升级性的物理与软件架构。通过FACE、SOSA等标准,MOSA创建了一个标准化的生态系统,使得经过验证的关键组件和创新的AI模块可以像积木一样被组合、替换和升级。
可信自主政策(Trustworthy Autonomy Policy): 作为治理基础,它通过DoDD 3000.09等指令,提供了程序性的V&V、T&E和人机交互准则。它将保障的重点从无法实现的形式化证明,转移到严格的实证测试和确保有意义的人类指挥与控制上,从而管理风险并建立信任。
9.3. 未来之路
整合人工智能的挑战,其核心并非在于试图将AI变得像传统软件一样具有确定性,而在于构建一个本身具有确定性和可验证性的系统架构,这个架构能够安全地管理、约束并有效利用非确定性AI组件的强大能力。这要求一种跨越计算机科学理论、系统架构工程和稳健政策制定的整体性方法。
从“宙斯盾”的开放式架构演进,到DARPA的ACE项目对人机协同的探索,趋势已经明确。未来国防技术的决定性优势,将不取决于在确定性与涌现性之间做出选择,而取决于精通驾驭两者的工程艺术。M3C模型为此提供了一个前行的路线图,指引我们构建出既智能、又可靠的新一代任务集成智能系统。
Works cited
www.geeksforgeeks.org, accessed October 16, 2025,
Difference Between Hard Real Time and Soft Real Time System - GeeksforGeeks, accessed October 16, 2025,
Large Language Models: A Survey - arXiv, accessed October 16, 2025,
Large language model - Wikipedia, accessed October 16, 2025,
A Comprehensive Overview of Large Language Models - arXiv, accessed October 16, 2025,
Real-Time Systems, Lecture 1 - Automatic control (LTH), accessed October 16, 2025,
Scheduling hard real-time systems: a review - Software Engineering Journal, accessed October 16, 2025,
What is real-time computing? - FutureLearn, accessed October 16, 2025,
What is a Real-Time Operating System (RTOS)? - IBM, accessed October 16, 2025,
Features of Hard Real Time Determinism - IntervalZero, accessed October 16, 2025,
Assessing Aegis Program Transition to an Open ... - RAND, accessed October 16, 2025,
Transformer (deep learning architecture) - Wikipedia, accessed October 16, 2025,
[2502.19965] Deterministic or probabilistic? The psychology of LLMs as random number generators - arXiv, accessed October 16, 2025,
A Survey on Large Language Models with some Insights on their Capabilities and Limitations - arXiv, accessed October 16, 2025,
DoD Directive 3000.09, "Autonomy in Weapon Systems," January 25 ..., accessed October 16, 2025,
ACE: Air Combat Evolution - DARPA, accessed October 16, 2025,
Mixed Criticality Systems - A Review - University of York, accessed October 16, 2025,
Preemptive Scheduling of Multi-Criticality Systems with Varying Degrees of Execution Time Assurance - UNC Computer Science, accessed October 16, 2025,
Considerations on Combining Vestal's Mixed-criticality Task Model and the Predictable Execution Model (PREM) for Real-time Systems - CEUR-WS.org, accessed October 16, 2025,
Preemptive Scheduling of Multi-criticality Systems with Varying Degrees of Execution Time Assurance | Request PDF - ResearchGate, accessed October 16, 2025,
Preemptive Scheduling of Multi-criticality Systems with Varying Degrees of Execution Time Assurance (2007) | S. Vestal | 929 Citations - SciSpace, accessed October 16, 2025,
Probabilistic Analysis for Mixed Criticality Systems using Fixed Priority Preemptive Scheduling - LORIA, accessed October 16, 2025,
Mixed Criticality Systems – A history of misconceptions? | Request PDF - ResearchGate, accessed October 16, 2025,
A survey of energy-aware scheduling in mixed-criticality systems - ResearchGate, accessed October 16, 2025,
A Survey of Research into Mixed Criticality Systems, accessed October 16, 2025,
Weapon Systems Acquisition: DOD Needs Better Planning to Attain Benefits of Modular Open Systems - GAO, accessed October 16, 2025,
Modular Open Systems Approach (MOSA) | www.dau.edu, accessed October 16, 2025,
Modular Open Systems Approach - Office of the Under Secretary of Defense for Research and Engineering, accessed October 16, 2025,
Policy and Guidance | www.dau.edu, accessed October 16, 2025,
The Future Airborne Capability Environment (FACE™) - LDRA, accessed October 16, 2025,
Future Airborne Capability Environment - Wikipedia, accessed October 16, 2025,
What Is FACE™? | Wind River, accessed October 16, 2025,
FACE Standard for Avionics Software | Ansys, accessed October 16, 2025,
FACE and DDS | Twin Oaks Computing, Inc, accessed October 16, 2025,
Sensor Open Systems Architecture (SOSA), accessed October 16, 2025,
What is SOSA? - everything RF, accessed October 16, 2025,
Our Capabilities Are Yours: Open Standards - LCR Embedded Systems, accessed October 16, 2025,
open-systems standards embedded computing SOSA - Military & Aerospace Electronics, accessed October 16, 2025,
DoD Directive 3000.09, November 21, 2012; Incorporating Change 1, May 8, 2017, accessed October 16, 2025,
ARTIFICIAL INTELLIGENCE DoD Directive 3000.09: Autonomy in Weapon Systems - Carahsoft, accessed October 16, 2025,
Defense Primer: U.S. Policy on Lethal Autonomous Weapon Systems | Congress.gov, accessed October 16, 2025,
New DoD Directive 3000.09 Autonomy In Weapon Systems | www.dau.edu, accessed October 16, 2025,
Tactical Technology Office - DARPA, accessed October 16, 2025,
Programs - DARPA, accessed October 16, 2025,
ACE Program Achieves World First for AI in Aerospace - DARPA, accessed October 16, 2025,
Air Combat Evolution (ACE) - YouTube, accessed October 16, 2025,
AIR: Artificial Intelligence Reinforcements - DARPA, accessed October 16, 2025,