采用英特尔全新的性能核微架构功耗降低80%
IT之家2021年8月19日在英特尔架构日,英特尔公司高级副总裁,加速计算系统与图形事业部总经理Raja Koduri和几位英特尔架构师介绍了两款全新x86内核架构的细节。
英特尔首款性能混合架构,代号Alder Lake,智能英特尔硬件线程调度器,蓝宝石急流,专为数据中心设计的下一代英特尔至强可扩展处理器,基础设施处理器,即将推出的显卡架构包括XeHPG微架构和XeHPC微架构,Alchemist SoC和Ponte Vecchio SoC。
X86内核
能效核心
全新英特尔能效核心微体系结构,以前代号为格雷斯蒙特。高能效内核可以利用各种技术进步,在不消耗处理器功率的情况下确定工作负载的优先级,并通过每周期指令数改进功能直接提高性能,包括:
具有5000个条目的分支目标缓冲区支持更精确的分支预测
64KB指令高速缓存,在不消耗内存子系统功率的情况下保存可用指令
英特尔首款按需指令长度解码器可以生成预解码信息
英特尔的集群无序执行解码器在保持能效的同时,每个周期最多可解码6条指令
宽后端有五组五宽分配和八组宽度撤回,256个无序窗口条目和17个执行端口
支持英特尔控制流执行技术和英特尔虚拟化技术重定向保护等功能
实现了支持整数人工智能运算的AVX指令集和新扩展
与英特尔最具生产力的CPU核心Skylake相比,在单线程性能下,高能效核心可以在相同功耗下实现40%的性能提升,或者以不到40%的功耗提供相同的性能与两个运行四个线程的Skylake内核相比,四个高能效内核提供的吞吐性能可以以更低的功耗同时提升80%的性能,在提供相同吞吐性能的情况下,功耗降低80%
性能核心
英特尔新的性能核心微体系结构,曾被代号为黄金湾。性能核心具有更广泛,更深入和更智能的体系结构:
更宽:解码器从4增加到6,6Op缓存增加到8
更深:更大的物理寄存器文件,512个条目的重新排序缓冲区
更智能:提高分支预测的准确性,降低有效一级延迟,优化二级全写预测带宽
性能核心是英特尔有史以来构建的最高性能CPU核心,它通过以下功能突破了低延迟和单线程应用性能的限制:
与当前的第11代英特尔酷睿处理器架构相比,在通用性能的ISO频率下,它在各种工作负载下实现了约19%的平均改进
显示更高的并行度和执行并行度的增加
配备英特尔高级矩形扩展,内置下一代AI加速技术,用于学习推理和训练。AMX包括专用硬件和新的指令集架构,以显著改善矩阵乘法
减少时间延迟,并为具有大数据和大代码量的应用程序提供更好的支持
客户
阿尔德湖客户端SoC
英特尔下一代客户端架构代号为Alder Lake,是英特尔首款性能混合架构,首次集成了性能核心和能效核心两种核心类型阿尔德湖基于英特尔7进程技术,支持最新内存和最快I/O
阿尔德湖支持所有客户端设备,从超便携笔记本到发烧友再到商用台式机。它采用单一且高度可扩展的SoC架构,并提供三种类型的产品设计形式:
高性能,双芯片,插座式台式机处理器,具有领先的性能和能效支持高规格内存和I/O
高性能笔记本处理器,BGA封装,并增加影像单元,更大的Xe显卡和Thunderbolt 4连接
轻薄低功耗笔记本处理器,采用高密度封装,优化了输入/输出和功率传输
英特尔需要在不影响功耗的情况下满足计算和运算的要求
I/O 代理对带宽的需求为了解决这一挑战,英特尔设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式
。计算内部总线可支持高达 1000GBps—— 即每个内核或每集群 100GBps,通过最后一级缓存将内核和显卡连接到内存
-
具有高动态频率范围,并且能够动态选择数据路径,根据实际总线结构负载而进行时延和带宽优化
-
根据利用率动态调整最后一级缓存策略 —— 也就是包含或不包含
。I/O 内部总线支持可高达 64GBps,连接不同类型的 I/O 和内部设备,能在不干扰设备正常运行的情况下无缝改变速度,选择内部总线速度来匹配所需的数据传输量
。内存结构可提供高达 204GBps 的数据,并动态扩展其总线宽度和速度,以支持高带宽,低时延或低功耗的多个操作点
英特尔硬件线程调度器
为使性能核和能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,称之为英特尔硬件线程调度器硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上硬件线程调度器具有动态性和自适应性 —— 它会根据实时的计算需求调整调度决策 —— 而非一种简单的,基于规则的静态方法
传统意义上,操作系统会根据有限的可用数据做出决策,如前台和后台任务。硬件线程调度器可通过以下方式增加新维度:
-
使用硬件遥测工具将需要更高性能的线程引导到当时适合的性能核上
-
更精细地监控指令组合,每内核当前状态以及相关的微架构遥测,从而帮助操作系统做出更智能的调度决策
-
通过与微软合作,优化英特尔硬件线程调度器在 Windows11 上的性能
-
扩展 PowerThrottling API,使得开发人员能够为其线程明确指定服务质量属性
-
应用全新 EcoQoS 分类,该分类可让调度程序获悉线程是否更倾向于能效
XeHPG 微架构和 Alchemist SoC
XeHPG 是一款全新的独立显卡微架构XeHPG 微架构为 Alchemist 系列 SoC 提供动力,首批相关产品将于 2022 年第一季度上市,并采用新的品牌名 —— 英特尔锐炫XeHPG 微架构采用全新的 Xe 内核,是一款聚焦计算,可编程且可扩展的元件
客户端显卡路线图包括 Alchemist,Battlemage,Celestial 和 Druid SoC在演讲中,英特尔展示了微架构细节,并分享了在试产阶段的 Alchemist SoC 上运行的演示视频,包括真实游戏展示,虚幻引擎 5 测试良好,全新的基于神经网络的超取样技术 XeSS 等
基于 XeHPG 微架构的 Alchemist SoC 能够提供可扩展性和计算效率,并拥有以下关键架构特征:
-
多达 8 个具有固定功能的渲染切片,专为 DirectX 12 Ultimate 设计
-
全新 Xe 内核,拥有 16 个矢量引擎和 16 个矩阵引擎,高速缓存和共享内部显存
-
支持 DirectX Raytracing和 Vulkan Ray Tracing 的新光线追踪单元
-
通过架构,逻辑设计,电路设计,制程工艺技术和软件优化,相比 XeLP 微架构实现 1.5 倍的频率提升和 1.5 倍的每瓦性能提升
-
使用台积电的 N6 制程节点上进行制造
XeSS
XeSS 利用 Alchemist 的内置 XMX AI 加速,带来了一种可实现高性能和高保真视觉的全新升频技术其使用深度学习来合成接近原生高分辨率渲染质量的图像英特尔表示,凭借 XeSS ,那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行
-
XeSS 的工作原理是通过从相邻像素,以及对前一帧进行运动补偿,来重建子像素细节
-
重构由经过训练的神经网络执行,可提供高性能和高画质,同时性能提升高达两倍
-
XeSS 凭借 DP4a 指令,在包括集成显卡在内的各种硬件上提供基于 AI 的超级采样
-
多家早期的游戏开发商已开始使用 XeSS,本月将向独立软件供应商提供 XMX 初始版本的 SDK,DP4a 版本将于今年晚些时候推出
下一代英特尔至强可扩展处理器
Sapphire Rapids 的核心是一个分区块,模块化的 SoC 架构,采用英特尔的嵌入式多芯片互连桥接封装技术,在保持单晶片 CPU 接口优势的同时,具有显著的可扩展性Sapphire Rapids 提供了一个单一,平衡的统一内存访问架构,每个线程均可完全访问缓存,内存和 I/O 等所有单元上的全部资源,由此实现整个 SoC 具有一致的低时延和高横向带宽
Sapphire Rapids 基于 Intel 7 制程工艺技术,采用英特尔全新的性能核微架构。
Sapphire Rapids 提供数据中心相关加速器,包括新的指令集架构和集成 IP,以在各种客户工作负载和使用中提升性能。新的内置加速器引擎包括:
-
英特尔加速器接口架构指令集—— 支持对加速器和设备的有效调度,同步和信号传递
-
英特尔高级矩阵扩展——Sapphire Rapids 中引入的新加速引擎,可为深度学习算法核心的 Tensor 处理提供大幅加速其可以在每个周期内进行 2000 次 INT8 运算和 1000 次 BFP16 运算,实现计算能力的大幅提升
-
英特尔数据流加速器—— 旨在卸载最常见的数据移动任务,这些任务会导致数据中心规模部署中的开销。英特尔 DSA 改进了对这些开销任务的处理,以提供更高的整体工作负载性能,并可以在 CPU,内存和缓存以及所有附加的内存,存储和网络设备之间移动数据
基础设施处理器
IPU 是一种可编程的网络设备,旨在使云和通信服务提供商减少在中央处理器方面的开销英特尔推出了以下 IPU 家族的新成员
Mount Evans 是英特尔的首个 ASIC IPUMount Evans 是与一家云服务提供商共同设计和开发的
-
超大规模就绪,提供高性能网络和存储虚拟化卸载,同时保持高度控制
-
提供业界一流的可编程数据包处理引擎,支持防火墙和虚拟路由等用例
-
使用硬件加速的 NVMe 存储接口,该接口扩展自英特尔傲腾技术,以模拟 NVMe 设备
-
采用英特尔高性能 Quick Assist 技术,部署高级加密和压缩加速
-
可使用现有普遍部署的 DPDK,SPDK 等软件环境进行编程,并且可以采用英特尔 Barefoot Switch 部门开创的 P4 编程语言来配置管线
Oak Springs Canyon 是一个 IPU 参考平台,基于英特尔至强 D 处理器和英特尔 Agilex FPGA 构建:
-
卸载 Open Virtual Switch等网络虚拟化功能以及 NVMe over Fabric 和 RoCE v2 等存储功能,并提供硬化的加密模块,提供 2x 100Gb 以太网网络接口
-
能够使用英特尔开放式 FPGA 开发堆栈 定制其解决方案
-
使用现有普遍部署的软件环境进行编程,包括已在 x86 上优化的 DPDK 和 SPDK
IT之家了解到,英特尔 N6000 加速开发平台,代号为Arrow Creek,是专为搭载至强服务器设计的 SmartNIC。其特性包括:
-
英特尔 Agilex FPGA。用于高性能的 100GB 网络加速的英特尔以太网 800 系列控制器
-
支持多种基础设施工作负载,使通信服务提供商能够提供灵活的加速工作负载,如 Juniper Contrail,OVS 和 SRv6,它以英特尔 PAC—N3000 的成功为基础
Ponte Vecchio 基于 XeHPC 微架构英特尔公布了 XeHPC 微架构的 IP 模块信息,包括每个 Xe 核的 8 个矢量和矩阵引擎,切片和堆栈信息,以及包括计算,基础和 XeLink 单元的处理节点的单元信息在架构日上,英特尔表示,早期的 Ponte Vecchio 芯片展示了领先的性能,在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录英特尔 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量,高于 5 TBps 的内存结构带宽,以及高于 2 TBps 的连接带宽同时,英特尔分享了一段演示视频,展示了 ResNet 推理性能超过 43,000 张图像/秒和超过每秒 3400 张图像/秒的 ResNet 训练
Ponte Vecchio 由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接单元进行组装,实现单元之间的低功耗,高速连接这些设计均被集成于 Foveros 封装中,为提高功率和互连密度形成有源芯片的 3D 堆叠高速 MDFI 互连允许 1 到 2 个堆栈的扩展
计算单元是一个密集的多个 Xe 内核,是 Ponte Vecchio 的核心。
-
一块单元有 8 个 Xe 内核,总共有 4MB 一级缓存,是提供高效计算的关键
-
基于台积电先进的 N5 制程工艺技术
-
英特尔已通过设计基础设施设置和工具流程以及方法,为测试和验证该节点的单元铺平了道路
-
该单元具有极其紧凑的 36 微米凸点间距,可与 Foveros 进行 3D 堆叠
基础单元是 Ponte Vecchio 的连接组织它是基于 Intel 7 制程工艺的大型芯片,针对 Foveros 技术进行了优化
-
基础单元是所有复杂的 I/O 和高带宽组件与 SoC 基础设施 ——PCIe Gen5,HBM2e 内存,连接不同单元 MDFI 链路和 EMIB 桥接
-
采用高 2D 互连的超高带宽 3D 连接时延很低,使其成为一台无限连接的机器
-
英特尔技术开发团队致力于满足带宽,凸点间距和信号完整性方面的要求
-
Xe 链路单元提供了 GPU 之间的连接,支持每单元 8 个链路。
-
对 HPC 和 AI 计算的扩展至关重要
-
旨在实现支持高达 90G 的更高速 SerDes
-
该单元已被添加到极光百亿亿次级超级计算机的扩展解决方案中
Ponte Vecchio 已走下生产线进行上电验证,并已开始向客户提供限量样品Ponte Vecchio 预计将于 2022 年面向 HPC 和 AI 市场发布
oneAPI
目前,NVIDIA GPU,AMD GPU 和 Arm CPU 均有 Data Parallel C++和 oneAPI 库同时,英特尔还提供了商业产品,包括基本的 oneAPI 基础工具包,它在规范语言和库之外增加了编译器,分析器,调试器和移植工具
-
英特尔的 oneAPI 工具包拥有超过 20 万次单独安装
-
市场上部署的 300 多个应用程序采用了 oneAPI 的统一编程模型
-
超过 80 个 HPC 和 AI 应用程序使用英特尔 oneAPI 工具包在 Xe HPC 微架构上运行
-
5 月份发布的 1.1 版临时规范为深度学习工作负载和高级光线追踪库添加了新的图形接口,预计将在年底完成
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。