导航菜单

能否加速破解暗物质之谜?大型强子对撞机,再加上机器学习算法

玛雅娱乐手机官方网站

Original Boko Park 2天前我想分享

大型强子对撞机的每次质子碰撞都是不同的,但只有少数是特殊的。这种特殊的碰撞会产生不寻常的粒子(可能是新粒子,违反物理现象等),或者有助于填补我们对宇宙不完整性的理解。发现这些碰撞要比大海捞针中众所周知的针头困难得多,但革命性的创新正在酝酿之中。费米实验室的科学家和其他合作者已成功测试了原型机器学习技术,该技术的处理速度比传统方法快30至175倍。

面对每秒4000万次碰撞,大型强子对撞机的科学家们使用强大的计算机从普通碰撞的巨大静电中提取宝石 - 无论是希格斯粒子还是暗物质的迹象。机器学习技术可快速浏览模拟的大型强子对撞机碰撞数据,并成功学习识别特定的碰撞后模式。当以每秒惊人的600图像速度观看时,传统方法不会每秒处理。对于图像,该技术甚至可以在外部计算机上提供服务。

挑战更多数据,提高计算能力

这是机器学习服务如何支持已经拥有大量数据的领域的一瞥。研究人员目前正在升级大型强子对撞机,以当前速度的五倍粉碎质子。到2026年,欧洲核研究中心(CERN)的27公里圆形地下机器将产生比现在多20倍的数据。 CMS是大型强子对撞机的粒子探测器之一,CMS合作者正在升级该仪器,使这种复杂的故事级仪器能够拍摄更复杂的LHC粒子碰撞照片。

如果大型强子对撞机的科学家想要保存,那么一年内从高亮度大型强子对撞机收集的所有原始碰撞数据必须找到一种方法来存储大约1 eb(外部约1万亿人)硬盘驱动器数据,仅其中一小部分可能揭示新现象。大型强子对撞机的计算机被编程为选择这个小部件并立即确定哪些数据足够有价值,可以向下游发送以供进一步研究。目前,每100,000个粒子事件中就有一个发生在大型强子对撞机的计算系统中。

但是,当前的存储协议将无法跟上未来的数据泛滥,未来的数据泛滥将在数十年的数据收集过程中不断积累。升级后的CMS探测器拍摄的高分辨率照片不会使这项研究更容易。所有这一切都转化为对计算资源的需求,这是大型强子对撞机当前计算资源的10倍以上。目前的原型测试表明,随着机器学习和计算硬件的进步,研究人员希望能够在即将到来的高亮度大型强子对撞机(LHC)上线时筛选数据。参与CMS实验的费米实验室科学家Nami Tran说:希望你可以通过机器学习完成非常复杂的事情,并且更快地做到这一点非常重要。

机器学习救援推理的差异

粒子物理中的机器学习并不新鲜。在对撞机实验中,物理学家在数据处理的每个阶段都使用机器学习。然而,由于机器学习技术可以比传统方法快175倍地处理大型强子对撞机数据,粒子物理学家正在采取措施在碰撞计算过程中改变游戏规则。这种快速的速度源于Microsoft Azure ML平台中精心设计的硬件,这加速了称为推理的过程。为了理解推理,请考虑使用经过训练的算法识别摩托车的图像:物体有两个轮子,两个手柄连接到较大的金属体上。该算法足够聪明,知道具有类似属性的独轮车不是摩托车。

当系统扫描两个其他轮和两个手柄的新图像时,可以预测或推断出物体是摩托车。随着算法的预测误差被校正,它在识别这些误差方面变得非常熟练。经过10亿次扫描后,它进入了推理游戏。大多数机器学习平台的构建是为了理解如何对图像进行分类,而不是为物理特定的图像分类。物理学家必须教他们物理部分,例如识别希格斯玻色子形成的轨迹或寻找暗物质的线索。来自费米实验室,欧洲核子研究中心,麻省理工学院,华盛顿大学和其他合作者的研究人员对Azure ML进行了培训,以从模拟的CMS数据中识别出最高夸克。

具体来说,Azure的任务是寻找顶级夸克喷射图像,这是一种粒子云,它是由碰撞中的单顶夸克从碰撞中移开的。费米实验室的科学家Burt Holzman说:我们向它发送图像并用物理数据对其进行训练,这表明了最先进的性能。非常快。这意味着可以提供很多这样的东西,一般来说,这些技术都非常好。推理加速背后的技术之一是传统处理器与专用处理器的组合,称为异构计算架构。不同的平台使用不同的架构,传统的处理器是CPU(中央处理单元)。最着名的专用处理器是gpu(图形处理单元)和fpga(现场可编程门阵列),Azure ML结合了cpu和fpga。

这些过程需要加速的原因是这些计算非常大,例如250亿次。将它安装在FPGA上,将其映射到FPGA并在合理的时间内完成它是一项真正的成就。它也开始作为服务产品,第一次有人演示如何使用这种异构的服务架构进行基础物理。在计算机世界中,“作为服务”的使用具有特定含义。外部组织提供资源(机器学习或硬件)作为服务,用户(科学家)在需要时使用这些资源。这类似于视频流媒体公司提供数小时的疯狂观看电视服务而无需拥有自己的DVD和DVD播放器,而是使用他们的库和界面。大型强子对撞机的数据通常存储在合作组织(如CERN和Fermilab)的计算机服务器上并进行处理。

这为实验室提供了额外的计算能力和资源,以增强其功能,同时无需提供自己的服务器。加速计算的想法已经存在了几十年,但传统的模式是购买带有gpus的计算机集群并在实验室中将它们安装在本地。位于伊利诺伊州芝加哥附近的费米实验室的计算机只需100毫秒即可将粒子事件的图像发送到Azure云,然后处理并返回。作为一种工具,机器学习继续为粒子物理学提供了一种理解宇宙的新方法,并且令人印象深刻。我们可以使用一些训练有素的东西来区分动物和人的照片,做一些适度的计算,让它告诉我们顶夸克喷射和背景之间的区别。

Brocade Park |研究/来自:费米国家加速器实验室

博科|科学,技术,研究,科学与技术

本文为第一作者的原创,未经授权不得转载

收集报告投诉

大型强子对撞机的每次质子碰撞都是不同的,但只有少数是特殊的。这种特殊的碰撞会产生不寻常的粒子(可能是新粒子,违反物理现象等),或者有助于填补我们对宇宙不完整性的理解。发现这些碰撞要比大海捞针中众所周知的针头困难得多,但革命性的创新正在酝酿之中。费米实验室的科学家和其他合作者已成功测试了原型机器学习技术,该技术的处理速度比传统方法快30至175倍。

面对每秒4000万次碰撞,大型强子对撞机的科学家们使用强大的计算机从普通碰撞的巨大静电中提取宝石 - 无论是希格斯粒子还是暗物质的迹象。机器学习技术可快速浏览模拟的大型强子对撞机碰撞数据,并成功学习识别特定的碰撞后模式。当以每秒惊人的600图像速度观看时,传统方法不会每秒处理。对于图像,该技术甚至可以在外部计算机上提供服务。

挑战更多数据,提高计算能力

这是机器学习服务如何支持已经拥有大量数据的领域的一瞥。研究人员目前正在升级大型强子对撞机,以当前速度的五倍粉碎质子。到2026年,欧洲核研究中心(CERN)的27公里圆形地下机器将产生比现在多20倍的数据。 CMS是大型强子对撞机的粒子探测器之一,CMS合作者正在升级该仪器,使这种复杂的故事级仪器能够拍摄更复杂的LHC粒子碰撞照片。

如果大型强子对撞机的科学家想要保存,那么一年内从高亮度大型强子对撞机收集的所有原始碰撞数据必须找到一种方法来存储大约1 eb(外部约1万亿人)硬盘驱动器数据,仅其中一小部分可能揭示新现象。大型强子对撞机的计算机被编程为选择这个小部件并立即确定哪些数据足够有价值,可以向下游发送以供进一步研究。目前,每100,000个粒子事件中就有一个发生在大型强子对撞机的计算系统中。

但是,当前的存储协议将无法跟上未来的数据泛滥,未来的数据泛滥将在数十年的数据收集过程中不断积累。升级后的CMS探测器拍摄的高分辨率照片不会使这项研究更容易。所有这一切都转化为对计算资源的需求,这是大型强子对撞机当前计算资源的10倍以上。目前的原型测试表明,随着机器学习和计算硬件的进步,研究人员希望能够在即将到来的高亮度大型强子对撞机(LHC)上线时筛选数据。参与CMS实验的费米实验室科学家Nami Tran说:希望你可以通过机器学习完成非常复杂的事情,并且更快地做到这一点非常重要。

机器学习救援推理的差异

粒子物理中的机器学习并不新鲜。在对撞机实验中,物理学家在数据处理的每个阶段都使用机器学习。然而,由于机器学习技术可以比传统方法快175倍地处理大型强子对撞机数据,粒子物理学家正在采取措施在碰撞计算过程中改变游戏规则。这种快速的速度源于Microsoft Azure ML平台中精心设计的硬件,这加速了称为推理的过程。为了理解推理,请考虑使用经过训练的算法识别摩托车的图像:物体有两个轮子,两个手柄连接到较大的金属体上。该算法足够聪明,知道具有类似属性的独轮车不是摩托车。

当系统扫描两个其他轮和两个手柄的新图像时,可以预测或推断出物体是摩托车。随着算法的预测误差被校正,它在识别这些误差方面变得非常熟练。经过10亿次扫描后,它进入了推理游戏。大多数机器学习平台的构建是为了理解如何对图像进行分类,而不是为物理特定的图像分类。物理学家必须教他们物理部分,例如识别希格斯玻色子形成的轨迹或寻找暗物质的线索。来自费米实验室,欧洲核子研究中心,麻省理工学院,华盛顿大学和其他合作者的研究人员对Azure ML进行了培训,以从模拟的CMS数据中识别出最高夸克。

具体来说,Azure的任务是寻找顶级夸克喷射图像,这是一种粒子云,它是由碰撞中的单顶夸克从碰撞中移开的。费米实验室的科学家Burt Holzman说:我们向它发送图像并用物理数据对其进行训练,这表明了最先进的性能。非常快。这意味着可以提供很多这样的东西,一般来说,这些技术都非常好。推理加速背后的技术之一是传统处理器与专用处理器的组合,称为异构计算架构。不同的平台使用不同的架构,传统的处理器是CPU(中央处理单元)。最着名的专用处理器是gpu(图形处理单元)和fpga(现场可编程门阵列),Azure ML结合了cpu和fpga。

这些过程需要加速的原因是这些计算非常大,例如250亿次。将它安装在FPGA上,将其映射到FPGA并在合理的时间内完成它是一项真正的成就。它也开始作为服务产品,第一次有人演示如何使用这种异构的服务架构进行基础物理。在计算机世界中,“作为服务”的使用具有特定含义。外部组织提供资源(机器学习或硬件)作为服务,用户(科学家)在需要时使用这些资源。这类似于视频流媒体公司提供数小时的疯狂观看电视服务而无需拥有自己的DVD和DVD播放器,而是使用他们的库和界面。大型强子对撞机的数据通常存储在合作组织(如CERN和Fermilab)的计算机服务器上并进行处理。

这为实验室提供了额外的计算能力和资源,以增强其功能,同时无需提供自己的服务器。加速计算的想法已经存在了几十年,但传统的模式是购买带有gpus的计算机集群并在实验室中将它们安装在本地。位于伊利诺伊州芝加哥附近的费米实验室的计算机只需100毫秒即可将粒子事件的图像发送到Azure云,然后处理并返回。作为一种工具,机器学习继续为粒子物理学提供了一种理解宇宙的新方法,并且令人印象深刻。我们可以使用一些训练有素的东西来区分动物和人的照片,做一些适度的计算,让它告诉我们顶夸克喷射和背景之间的区别。

Brocade Park |研究/来自:费米国家加速器实验室

博科|科学,技术,研究,科学与技术

本文为第一作者的原创,未经授权不得转载