OpenAI gpt-oss-120b 分析

最后更新于:2025-10-16 20:11:52

OpenAI gpt-oss-120b 分析

摘要

本文对 OpenAI 的 gpt-oss-120b 模型进行了全面的技术分析,该模型是作为 gpt-oss 系列发布的两个开放权重模型之一。此次发布标志着 OpenAI 的一个重要战略转向,在经历了一段专注于专有、API 限制模型的时期后,重新与开源社区进行接触。本文深入研究了该模型新颖的架构设计,该设计采用稀疏的专家混合(Mixture-of-Experts, MoE)变换器架构,并结合了 MXFP4 量化技术,以在庞大的总参数量(1170亿)与推理效率之间取得平衡,从而实现了在单个 80GB 加速器上的部署。分析内容涵盖了模型的训练方法,包括大规模蒸馏和强化学习,以及其为实现专门的代理(agentic)能力(如工具使用和复杂推理)而进行的训练后对齐。本文基于已发布的基准测试评估了其性能,并探讨了实际部署中的考量因素,包括硬件先决条件和软件生态系统的关键作用。最后,本文将 gpt-oss-120b 置于开放权重模型的竞争格局中进行定位,并分析其在高效、大规模人工智能领域推动未来研究轨迹的潜力。

1. 引言:OpenAI 对开放权重模型的重新投入

1.1 大型语言模型(LLM)的发展范式

大型语言模型(LLM)的研发领域在概念上可以划分为三种主流范式:闭源、混合与开源。每种范式都代表了一种关于知识生产、治理和分发的哲学。理解这些范式对于定位当前关于人工智能研究中创新、可复现性和问责制的讨论至关重要 1。

闭源模式代表了最传统和最具限制性的方法。在这种范式下,模型权重和训练语料库均被视为专有资产,而关键的架构细节,如参数数量、优化策略和超参数配置,仅被部分披露或完全不披露。与模型的交互通过应用程序编程接口(API)或受控的部署环境进行,用户可以利用其功能,但无法访问其内部机制。这种模式的理论基础是将 LLM 视为知识产权。OpenAI 的旗舰 GPT 系列(如 GPT-3 和 GPT-4)便是这一模式的典型代表,其开发围绕着对专有管理的承诺、对分发的控制以及对商业或战略敏感数据的保护 1。

开源/开放权重模式则与之相反,其特点是公开发布模型权重,通常采用宽松的许可证,从而促进了由社区驱动的研究和开发。这种范式鼓励透明度、协作和知识的广泛传播。Meta 公司的 Llama 系列模型是这一模式的杰出范例,它通过向研究和商业社区发布模型,催生了一个充满活力的生态系统,加速了整个领域的创新步伐 4。

混合模式标志着一个更新且日益重要的中间地带。这些系统采用一种“选择性披露”的框架,即开放模型的某些组件,同时保留其他组件的专有性。例如,模型权重可能在特定的许可条件下发布,但预训练语料库仍然保密;或者,微调协议可能被详细记录,但完整的优化流程则被保留为专有。OpenAI 的 gpt-oss 系列为这一范式提供了清晰的例证。gpt-oss-120b 是一个拥有 1170 亿总参数和 51 亿活跃参数的模型,专为在单个 80GB GPU 上执行高推理能力的生产任务而设计,其分发受到限制修改和再分发的条款约束。相比之下,gpt-oss-20b 是一个拥有 210 亿总参数和 36 亿活跃参数的模型,已完全开放,支持本地部署和领域特定的适应性改造。混合范式体现了一种有条件的开放哲学:既承认可访问性和协作的价值,又坚持机构管理和对资源的 selectively protection 1。

1.2 历史背景:从 GPT-2 的分阶段发布到新的开放策略

为了全面理解 gpt-oss 系列发布的战略意义,有必要回顾 OpenAI 在开放模型方面的历史立场。其早期工作,特别是 GPT-2 的发布,为当前这一战略转变提供了重要的背景。

GPT-2 是一个拥有 15 亿参数的大型变换器语言模型,其最初的发布策略极为谨慎。由于担忧该技术的潜在恶意应用,OpenAI 最初并未发布经过完整训练的模型,而是采取了分阶段发布(staged release)的策略 7。这一策略涉及随时间推移逐步发布一系列模型,旨在给予公众时间来评估这些模型的特性,讨论其社会影响,并在每个阶段后评估发布所带来的冲击 9。这一历史先例凸显了 OpenAI 对开放强大生成模型所持的审慎态度,也反衬出 gpt-oss 的发布是一次重大的战略调整。

从 GPT-2 到后续的专有模型(如 GPT-3、GPT-3.5 和 GPT-4),OpenAI 逐渐巩固了其以闭源、商业 API 为核心的模式 2。在这一背景下,gpt-oss-120b 的发布尤为引人注目,因为它标志着自 2019 年以来,OpenAI 首次发布主要的开放权重模型 11。这一举动表明,OpenAI 正在战略性地重新与开源生态系统进行接触,以应对日益变化的行业格局。

这种战略转变并非孤立发生,而是对行业动态的直接回应。近年来,开放权重 LLM 领域变得异常活跃和具有竞争力,这在很大程度上是由 Meta 的 Llama 系列模型所推动的 4。Llama 系列的发布培育了一个庞大而活跃的开发者社区,这些开发者和研究人员更倾向于开放权重模型所提供的灵活性和控制权。如果 OpenAI 不参与这一领域,将面临在研究人员、初创公司和开发者中丧失影响力的风险。因此,gpt-oss 的发布可以被理解为一种战略上的必要之举,其目的在于重新夺回在开源生态系统中的话语权,并防止竞争对手主导这一关键市场领域。gpt-oss 系列采用的宽松的 Apache 2.0 许可证是这一战略的关键组成部分,因为它直接吸引了商业实体,而这也是 Meta 通过其自定义商业许可证所瞄准的用户群体 13。因此,gpt-oss-120b 的开发和发布应被视为一次经过深思熟虑的战略部署,旨在开辟一个新的竞争前沿:争夺开源开发者生态系统的主导权。

1.3 gpt-oss 系列:双模型战略

gpt-oss 系列的发布采用了一种双模型战略,旨在满足开发者和研究社区中不同细分市场的需求,从企业级应用到本地实验,均有所覆盖 1。该系列包含两个不同规模和定位的模型:gpt-oss-120b 和 gpt-oss-20b。

gpt-oss-120b:该模型被定位用于生产环境、通用目的以及需要高推理能力的用例。其设计经过优化,能够在单个 80GB GPU(如 NVIDIA H100 或 AMD MI300X)上运行 14。这一定位使其成为需要大规模模型能力但又受限于硬件资源的企业和研究机构的理想选择。

gpt-oss-20b:该模型则针对需要更低延迟、可在本地部署或用于专门化任务的场景。其设计目标是能够在内存仅为 16GB 的系统上运行,极大地降低了使用的门槛 14。这使得个人开发者、小型团队和学术研究人员能够在消费级硬件上进行实验和应用开发。

这种双轨并行的发布策略体现了 OpenAI 对当前 LLM 生态系统多样化需求的深刻理解。它不仅通过 gpt-oss-120b 在高端市场与竞争对手的旗舰开放模型展开竞争,还通过 gpt-oss-20b 渗透到更广泛的开发者社区,从而最大限度地扩大其在开源领域的影响力。

2. 技术架构与训练基础

gpt-oss-120b 的设计体现了在模型规模、计算效率和功能专业化之间进行权衡的先进理念。其核心架构、量化技术和训练流程共同构成了一个为特定高级应用(即代理工作流)而优化的系统。

2.1 专家混合(MoE)范式:实现高效扩展

gpt-oss-120b 的核心是一种稀疏的专家混合(Mixture-of-Experts, MoE)变换器架构 16。这种架构与传统的“密集”模型形成对比,在密集模型中,每个输入令牌都会激活模型的所有参数。而在 MoE 架构中,每个变换器层块内都包含一个路由网络和多个“专家”子网络(前馈网络)。对于每个输入令牌,路由网络会选择性地激活一小部分专家来处理该令牌。这种机制使得模型可以在不显著增加推理计算成本的情况下,大幅扩展其总参数量 17。

gpt-oss-120b 和 gpt-oss-20b 的具体参数配置清晰地展示了这种设计理念。

数据来源: 14

如表所示,gpt-oss-120b 拥有 1168 亿的总参数,但在每次前向传播中,每个令牌仅激活 51 亿参数。该模型由 36 个变换器层构成,每个 MoE 块包含 128 个专家 14。相比之下,gpt-oss-20b 的总参数为 209 亿,活跃参数为 36 亿,包含 24 个层和 32 个专家 14。MoE 架构使模型能够将巨大的知识库(总参数)与相对较低的推理成本(活跃参数)相结合,从而在能力和效率之间实现了卓越的平衡。

2.2 模型量化进展:MXFP4 的作用

为了进一步提升模型的硬件效率,gpt-oss 系列采用了一种先进的模型量化技术。量化是一种模型压缩技术,通过将模型权重和激活值从高精度浮点数(如 32 位或 16 位)转换为低精度数据格式(如 8 位整数),来减少模型的内存占用、降低功耗并加速推理过程 19。

gpt-oss 模型在训练后阶段,专门对 MoE 权重应用了 MXFP4 量化 14。MXFP4 是一种 4 位浮点表示格式,能够实现极高的压缩率。这一决策具有高度的针对性,因为 MoE 权重占据了模型总参数量的 90% 以上 18。通过对这部分参数进行量化,可以在最大程度上减小模型的体积,同时对模型性能的影响也控制在可接受的范围内。

这项量化技术是实现模型硬件效率目标的关键。正是 MXFP4 量化,使得拥有超过千亿参数的 gpt-oss-120b 能够适应单个 80GB GPU 的内存限制,而 gpt-oss-20b 则能成功部署在仅有 16GB 内存的系统上 14。值得注意的是,一些新兴的硬件,如 NVIDIA 的 50 系列 GPU,可能原生支持 FP4 数学运算,这表明 OpenAI 在架构选择上具有前瞻性,其设计考虑了未来硬件的发展趋势 17。

2.3 训练、蒸馏与训练后对齐

gpt-oss 模型的训练和优化过程是一个多阶段、目标明确的流程,旨在塑造其强大的推理和代理能力。根据技术文档,模型是利用大规模蒸馏和强化学习相结合的方法进行训练的 16。

在预训练阶段,数据质量和安全性得到了高度重视。训练数据经过了严格的有害内容过滤,特别是重用了来自 GPT-4o 的 CBRN(化学、生物、放射性和核)预训练过滤器,以减少与生物安全相关的危险知识 18。此外,模型的知识截止日期被明确设定为 2024 年 6 月 18。

然而,gpt-oss 模型最显著的特点在于其广泛的训练后对齐过程,这一过程专门用于优化其代理能力 18。该过程包括以下几个关键方面:

代理工具使用(Agentic Tool Use):模型经过专门训练,具备了原生的工具使用能力,包括执行网页浏览和 Python 代码,并支持结构化输出 14。这使其能够与外部环境和 API 进行交互,完成复杂的自动化任务。

可变推理努力(Variable Effort Reasoning):模型被训练成能够响应开发者设定的不同“推理努力”级别(低、中、高)。这一独特功能允许开发者根据具体应用场景的性能和延迟需求,动态调整模型的计算投入,从而在成本和质量之间进行权衡 13。

Harmony 聊天格式:模型在训练中专门使用了 OpenAI 的“Harmony”响应格式,并且在推理时也必须使用该格式才能正常工作。这种格式通过明确的角色划分和指令结构,实现了清晰的指令遵循能力,对于执行复杂的代理任务至关重要 14。

综合来看,gpt-oss-120b 的架构和训练流程紧密耦合,共同服务于一个明确的目标。MoE 架构提供了庞大的知识容量和较低的推理成本;MXFP4 量化进一步降低了硬件门槛,使其能够在可及的高端硬件上运行;而训练后对齐则将模型的潜力精确地引导至代理任务这一特定领域。这三个要素共同构成了一个协同的设计哲学。其最终目标并非创造一个最强大的通用聊天机器人,而是打造一个最强大且最易于部署的、用于构建人工智能代理的引擎。这标志着 gpt-oss-120b 代表了一类新型的“目标导向型”开放权重模型,其价值主张不仅在于其规模,更在于其为特定、高价值应用领域(即 AI 驱动的自动化和代理工作流)所进行的高度优化设计。

3. 性能、能力与局限性

对 gpt-oss-120b 的全面评估需要考察其在标准化基准测试中的量化表现、在实际应用中的专业能力,以及已观察到的性能异常和固有限制。

3.1 量化性能分析

根据 OpenAI 发布的官方数据,gpt-oss-120b 在一系列涵盖推理、知识和数学能力的标准化基准测试中表现出色。

数据来源: 13

如上表所示,该模型在 MMLU(大规模多任务语言理解)基准上取得了 90.0 的高分,这表明其具备广泛的通用知识和强大的多任务处理能力。在更具挑战性的 GPQA Diamond 基准上,其得分也达到了 80.1。特别是在 AIME(美国数学邀请赛)这类需要复杂多步推理的竞赛数学问题上,gpt-oss-120b 表现尤为突出,2024 年和 2025 年的测试得分分别高达 96.6 和 97.9 13。这些数据证实了该模型作为“高推理”模型的定位。

此外,在一些专业的零样本(zero-shot)任务中,gpt-oss-120b 也展现了卓越的性能。例如,在一项关于生物医学关系提取的研究中,gpt-oss-120b 在多个数据集上的表现一致优于 GPT-4,尤其是在处理具有多种关系类型的复杂任务时,其优势更为明显 21。这表明该模型强大的推理能力可以很好地泛化到高度专业的领域。

3.2 代理功能与高级推理实践

gpt-oss-120b 的核心设计目标是支持代理工作流,其功能集也围绕这一目标进行了深度优化。

工具使用与结构化输出:模型原生支持调用外部工具,如执行网络搜索和运行 Python 代码,并能够生成结构化的输出(例如 JSON 格式)14。这一能力是构建能够与外部世界交互并执行具体操作的 AI 代理的基础。

思维链(CoT)透明度:模型的一个关键特性是能够提供完整的思维链(Chain-of-Thought)访问。这意味着开发者可以审查模型为得出最终答案而生成的中间推理步骤。这一功能对于调试模型的逻辑、验证其推理过程以及增强对模型输出的信任至关重要。OpenAI 明确指出,此功能是为开发者设计的,而非面向最终用户 13。

这些代理能力与学术界的前沿研究方向高度一致。例如,在静态代码分析领域,有研究提出利用 LLM 的推理能力来辅助和裁决传统分析工具的发现,如“ZeroFalse”框架 22。gpt-oss-120b 凭借其强大的推理和工具使用能力,非常适合应用于此类需要深度分析和决策的复杂场景。

3.3 观察到的异常与性能矛盾

尽管 gpt-oss-120b 表现强大,但在实际评估和使用中也暴露出一些局限性和意想不到的性能特征。

逆向扩展现象(Inverse Scaling):一项独立的学术评估揭示了一个反常的现象:在某些基准测试中,规模较小的 gpt-oss-20b 模型的性能持续优于规模更大的 gpt-oss-120b。这种情况在 HumanEval(代码生成)和 MMLU(通用知识)等基准上尤为明显 11。这种“逆向扩展”效应挑战了“模型越大,能力越强”的传统观念,特别是在 MoE 架构中,这一现象可能揭示了更复杂的动态关系。

幻觉与可靠性:与所有当前的 LLM 一样,gpt-oss-120b 也容易产生“幻觉”,即生成看似合理但实际上不正确或无事实依据的内容。OpenAI 在其模型卡中明确指出了“幻觉思维链”和一般性“幻觉”是开发者在使用模型时需要注意和缓解的挑战 18。这再次强调了确保生成模型事实准确性仍然是一个持续存在的重大挑战。

gpt-oss-20b 在某些任务上优于 gpt-oss-120b 的现象,可能揭示了 MoE 架构中“专家”与“通用”能力之间的内在权衡。在 MoE 模型中,性能高度依赖于路由机制能否为特定任务正确选择最相关的“专家”子网络。gpt-oss-120b 拥有更多的专家(128 个,而 20B 模型为 32 个),这为其提供了更广阔的潜在知识基础,但同时也给路由带来了更复杂的挑战 18。对于某些定义明确的领域(如 HumanEval 或 MMLU 中的任务),gpt-oss-20b 中规模更小、更专注的专家集可能更容易被路由机制有效利用。相比之下,120B 模型的路由可能因专家数量过多而难以进行最优选择,从而导致性能下降。这表明,在稀疏架构中,对于所有任务而言,“更大”并非总是“更好”。特定领域可能存在一个最佳的稀疏度和专家专业化水平。这一发现可能推动未来的 MoE 模型研究,从仅仅追求更大的模型规模,转向开发由不同规模或专业化 MoE 模型组成的“模型集成”。像 gpt-oss-20b 这样更小、更高效的模型可能在特定的高吞吐量任务中表现更优,而 gpt-oss-120b 则更适合需要更广泛、多样化知识基础的任务。这一观察结果可能会激发对更先进的路由算法和任务依赖型模型选择策略的研究。

4. 部署与实践实施

成功部署和利用 gpt-oss-120b 的全部潜力,不仅需要理解其理论能力,还必须满足其严格的硬件要求,并精确配置其软件生态系统。

4.1 硬件先决条件与性能瓶颈

运行 gpt-oss-120b 对硬件资源提出了明确的要求,这些要求超越了典型的消费级设备。

显存(VRAM)需求:仅加载 gpt-oss-120b 的模型权重就需要大约 60-65 GB 的显存。为了支持完整的上下文长度和运行时开销(如 KV 缓存),推荐的系统配置为 80 GB 左右的显存 17。这基本上将其部署限制在配备了 NVIDIA H100 或 AMD MI300X 等高端数据中心级 GPU 的服务器上。

内存带宽是主要限制因素:对于大型 LLM 的推理过程,性能瓶颈通常不是原始计算能力(FLOPS),而是内存带宽。生成每个令牌都需要从内存中流式传输巨大的权重矩阵。即使是像 Apple M4 Max 这样拥有出色统一内存架构的强大消费级芯片,其内存带宽(约 410–546 GB/s)与顶级服务器 GPU 相比仍然存在巨大差距,这会严重限制其在处理百亿亿级参数模型时的令牌生成速度 23。

散热与功耗限制:在笔记本电脑等消费级硬件上持续运行大规模模型推理,会产生巨大的热量和功耗。这很容易导致系统达到散热上限,触发热节流,从而降低时钟频率和性能。这进一步证实了 gpt-oss-120b 的主要目标平台是具备强大散热解决方案的服务器或高端台式工作站 23。

4.2 软件生态系统与配置保真度

除了硬件,软件环境的正确配置对于发挥 gpt-oss 系列模型的性能至关重要,特别是其高级的代理功能。

推理框架:该模型可以通过多种主流的开源库和平台进行访问,包括 Hugging Face Transformers、Ollama 和 LM Studio,这为开发者提供了便利 14。同时,OpenAI 也提供了针对不同硬件(PyTorch 用于通用计算,Triton 用于 NVIDIA GPU 优化,Metal 用于 Apple Silicon)的参考实现,以供开发者参考和优化 14。

提示与聊天模板的关键性:来自社区的评估报告反复强调,模型的实际表现与软件配置的保真度密切相关。gpt-oss 系列模型,如果未使用正确的聊天模板和提示结构,其核心功能(如工具调用)可能会完全失效。这是因为这些模型在训练过程中被“为其原生工具调用方案进行了深度调整” 24。这意味着模型不仅学习了语言模式,还学习了与其交互的特定协议。

这种对配置的高度敏感性造成了一个“可用性鸿沟”。模型的强大代理能力只有在开发者正确实现了其所需的交互格式(即 Harmony 格式)时才能被解锁 14。这使得它不像其他通用模型那样可以被“即插即用”,而是需要开发者投入额外的精力来学习和实现其特定的接口规范。

这一现象揭示了一个更深层次的趋势:OpenAI 发布的不仅仅是模型权重,而是一个期望特定输入/输出结构的完整系统。社区报告的失败案例,与其说是模型核心能力的缺陷,不如说是用户实现与模型训练假设之间的不匹配。这表明,“模型”的定义正在扩展,它不再仅仅是神经网络的参数,而是包含了其训练过程中所依赖的整个交互协议。因此,gpt-oss-120b 的发布可能预示着未来开放权重模型将变得更加专业化。为了充分发挥其潜力,开源社区必须共同发展和标准化相应的“脚手架”(如库、模板、语法文件),以正确地与这些专业化能力对接。模型的价值不再仅仅蕴含于权重之中,更在于为正确操作这些权重而构建的工具生态系统。

5. 战略分析与未来前景

gpt-oss-120b 的发布不仅是一项技术成就,更是一次重要的战略部署,它将在开放权重 LLM 生态系统中产生深远影响,并可能塑造未来的发展轨迹。

5.1 在开放权重生态系统中的竞争定位

gpt-oss-120b 凭借其独特的技术组合,在竞争激烈的开放权重模型市场中占据了一个独特的生态位。

架构与参数规模的对位:其 MoE 架构和千亿级别的参数量,使其直接与 Meta 的 Llama 系列等其他大型开放模型形成对位竞争 4。然而,与其他密集型大模型不同,gpt-oss-120b 的稀疏设计使其在保持巨大知识容量的同时,显著降低了推理成本。

独特的价值主张:该模型的核心价值主张在于其“性能-效率-可及性”的结合。它提供了接近业界顶尖水平的规模(117B 参数),但通过 MoE 和 MXFP4 量化,将硬件门槛降低到单个 80GB GPU 即可运行的水平 13。这一点,再加上宽松的 Apache 2.0 商业友好许可证,使其对那些希望利用大规模 AI 能力但又受限于计算资源的研究机构和商业企业具有极大的吸引力。

功能上的差异化:模型对代理能力(如工具使用、代码执行和可变推理努力)的深度优化,是其关键的差异化优势 16。在 AI 自动化和代理系统成为下一个重要技术前沿的背景下,gpt-oss-120b 将自己定位为构建这些复杂系统的理想基础引擎。

5.2 未来发展的轨迹

gpt-oss-120b 的发布和设计理念,可能预示并推动 LLM 领域未来的一些重要发展趋势。

高效稀疏架构的兴起:gpt-oss-120b 的成功和可及性,可能会加速整个行业从训练日益庞大的密集型模型,转向更具计算效率的稀疏架构(如 MoE)。这一趋势与 Meta Llama 4 等其他主要研究实验室的工作相吻合,后者也采用了 MoE 设计 12。未来,研究重点可能会更多地放在如何优化路由算法、设计更高效的专家网络以及探索不同程度的稀疏性上。

从“模型权重”到“模型系统”:第四节中讨论的实施挑战表明,未来的开源模型发布可能需要提供比模型权重更丰富的内容。为了确保模型能够被有效利用,发布方可能需要提供全面的“系统卡”,详细说明模型训练时所依赖的特定交互协议,并提供相应的参考实现。行业的关注点可能会从简单地发布一个模型,转变为发布一个功能完整的“模型系统”。

为开源推理能力设定新基准:通过以宽松许可证发布一个具备强大推理能力的模型,OpenAI 为开源社区设定了一个新的性能基准。这可能会激励在多个方向上的进一步创新,包括:针对特定推理任务(如法律、金融或科学)的微调技术;为 MoE 模型开发更智能、更具适应性的路由机制;以及探索 AI 代理能力的极限,构建更自主、更强大的自动化系统。

6. 结论

gpt-oss-120b 的发布并非仅仅是大型语言模型发展趋势的延续,而是 OpenAI 凭借其独特的技术和战略考量,向开放权重生态系统迈出的重要一步。本报告的分析表明,该模型的核心贡献在于两个方面:首先,它通过稀疏的专家混合(MoE)架构和 MXFP4 量化技术的精妙结合,成功展示了在 1000 亿以上参数规模下实现高效推理的可能性;其次,它通过深度的训练后对齐,为执行代理任务进行了专门优化。

尽管 gpt-oss-120b 在标准化基准测试中表现强劲,但其在实际应用中的效用高度依赖于使用者对其硬件需求的深刻理解,以及对其原生软件交互协议的精确实现。这凸显了现代大型模型正在从通用工具向高度专业化的系统演变。

总而言之,gpt-oss-120b 的问世标志着开源人工智能领域进入了一个新的竞争与创新阶段。在这一阶段,竞争的焦点不再仅仅是原始的参数规模,而是性能、可及性和专业化功能的综合体现。该模型为开源社区设定了新的标准,并有望成为下一代人工智能代理和自动化推理系统研发的基石。

参考文献

Anil, R., Dai, A. M., et al. (2023). PaLM 2 Technical Report. arXiv:2305.10403.

Kalai, A. T., & Vempala, S. (2025). Why Language Models Hallucinate. OpenAI.

OpenAI. (2019). Language Models are Unsupervised Multitask Learners.

OpenAI. (2025). gpt-oss-120b and gpt-oss-20b Model Card. arXiv:2508.10925v1.

Touvron, H., Lavril, T., et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971.

IBM. (n.d.). What is Quantization? IBM Think Topics.

Microsoft. (n.d.). What are multimodal LLMs? Microsoft Azure.

Works cited

The Open-Source Advantage in Large Language Models (LLMs) - arXiv, accessed on October 16, 2025,

OpenAI - Wikipedia, accessed on October 16, 2025,

OpenAI models: All the models and what they're best for - Zapier, accessed on October 16, 2025,

LLaMA: Open and Efficient Foundation Language Models - Meta ..., accessed on October 16, 2025,

The official Meta Llama 3 GitHub site, accessed on October 16, 2025,

Meta Llama 2, accessed on October 16, 2025,

openai/gpt-2: Code for the paper "Language Models are Unsupervised Multitask Learners", accessed on October 16, 2025,

Language Models are Unsupervised Multitask Learners | OpenAI, accessed on October 16, 2025,

Better language models and their implications - OpenAI, accessed on October 16, 2025,

GPT-2 - Wikipedia, accessed on October 16, 2025,

Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI's Latest Open Source Models - arXiv, accessed on October 16, 2025,

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation - Meta AI, accessed on October 16, 2025,

Open models by OpenAI | OpenAI, accessed on October 16, 2025,

openai/gpt-oss: gpt-oss-120b and gpt-oss-20b are two ... - GitHub, accessed on October 16, 2025,

meta-llama/Llama-3.3-70B-Instruct - Hugging Face, accessed on October 16, 2025,

[2508.10925] gpt-oss-120b & gpt-oss-20b Model Card - arXiv, accessed on October 16, 2025,

GPT-OSS 120B is unexpectedly fast on Strix Halo. Why? : r/LocalLLaMA - Reddit, accessed on October 16, 2025,

gpt-oss-120b & gpt-oss-20b Model Card - arXiv, accessed on October 16, 2025,

What is Quantization? | IBM, accessed on October 16, 2025,

What is Quantization Aware Training? - IBM, accessed on October 16, 2025,

A Benchmark for End-to-End Zero-Shot Biomedical Relation Extraction with LLMs: Experiments with OpenAI Models - arXiv, accessed on October 16, 2025,

ZeroFalse: Improving Precision in Static Analysis with LLMs - arXiv, accessed on October 16, 2025,

Why GPT-OSS‑120B Feels Slow on a MacBook Pro M4 Max (128GB), accessed on October 16, 2025,

AMD tested 20+ local models for coding & only 2 actually work (testing linked) - Reddit, accessed on October 16, 2025,