HPC(高性能计算:High Performance Computing)资源汇总
高性能计算(High Performance Computing (HPC)) 通常指通过聚合计算资源以实现远高于普通台式机或工作站的性能,从而解决科学、工程或商业领域中大型问题的实践。本文持续更新,最新版本地址:https://github.com/china-testing/python_cn_resouce/blob/main/awesome-hpc.md
Table of Contents
[*]资源配置
[*]工作负载管理器
[*]流水线
[*]应用程序
[*]编译器
[*]MPI
[*]并行计算
[*]基准测试
[*]其他
[*]性能
[*]并行 shell
[*]容器
[*]环境管理
[*]可视化
[*]并行文件系统
[*]编程语言
[*]监控
[*]基于 Prometheus
[*]期刊
[*]播客
[*]博客
[*]会议
[*]网站
[*]用户组
资源配置
[*]Grendel - 用于HPC Linux集群的裸资源配置系统(源代码)GPL-3。
[*]XCat - xCAT是一个用于部署和管理各种规模集群的工具包 Source Code EPL-1.0。
[*]Warewulf - Warewulf 是一个用于大型裸机和/或虚拟系统集群的无状态、无盘容器操作系统部署系统Source Code BSD-3.
[*]Rocks - 用于开发 Linux 集群的 Linux 发行版。
[*]Cobbler - Cobbler 是一个 Linux 安装服务器,可快速设置网络安装环境 Source Code GPL-2.0。 -- 推荐
[*]Base Command Manager - Base Command Manager 允许管理员快速构建和管理异构集群(专有 英伟达)。
[*]Scyld - Scyld ClusterWare 基于 NASA 于 20 世纪 90 年代开发的 Beowulf 集群的持续演进而开发(专有)。
[*]BlueBanquise - BlueBanquise 是一个基于 Python 和 Ansible 的开源集群部署和管理堆栈Source Code MIT。
工作负载管理器
[*]Slurm - 免费且开源的作业调度程序 Source Code OSS -- 推荐。
[*]LSF - 由 IBM 开发的作业调度程序和工作负载管理软件(专有软件)。
[*]Moab - Moab 是一个工作负载管理和作业调度程序(其他)。
[*]Torque - Torque 是一个工作负载管理和作业调度程序 (其他)。
[*]OpenLava - OpenLava 是一个工作负载管理和作业调度程序 (其他)。
[*]UGE/SGE - Univa Grid Engine 是一个用于高性能计算(HPC)的工作负载管理引擎(专有软件)。
[*]Volcano - Volcano 是一个基于 Kubernetes 的批处理系统(Apache-2.0 许可证) Source Code 。
[*]Maui - Maui 是一个工作负载管理和作业调度器 (其他)。
[*]Kube Batch - Kubernetes 的批处理调度器,适用于高性能工作负载,例如 AI/ML、大数据、HPC Apache-2.0。
[*]OpenPBS - OpenPBS® 软件优化了高性能计算(HPC)环境中的作业调度和工作负载管理 Source Code 其他 -- 推荐。 附:pbs-professional -- 推荐
流水线
[*]Nextflow - 数据驱动的计算管道 Apache-2.0。
[*]Cromwell - 专为简单性和可扩展性设计的科学工作流引擎 Source Code BSD-3 -- 推荐。
[*]Pegasus - 用于在广泛的计算基础设施上映射和执行科学工作流的可配置系统 Source Code Apache-2.0。
应用程序
[*]Spack - 支持多版本、配置、平台和编译器的灵活包管理器 Source Code 其他 -- 推荐。
[*]EasyBuild - EasyBuild - 轻松构建软件 Source Code GPL-2。
编译器
[*]Nvidia - NVIDIA 高性能计算(HPC)编译器套件,支持 Fortran、C/C++ 及 OpenACC(专有)。
[*]Portland Group - Portland Group 编译器(原 Fortran、C/C++ 编译器)现已整合至 NVIDIA HPC SDK(专有)。
[*]Intel - Intel 编译器套件提供多种语言编译器,专为 HPC 领域设计(专有)。
[*]Cray - 专为 AMD Interlagos 指令集设计和优化的编译器套件(专有软件)。
[*]GNU - GNU 编译器集合(GCC)是针对多种语言的编译器套件 Source Code GPL-3 -- 推荐。
[*]LLVM - LLVM 项目是一组模块化编译器和工具链 Source Code 开源软件(OSS) -- 推荐。。
MPI
[*]OpenMPI - OpenMPI 是 MPI-3.1 标准的开源实现(源代码)BSD Source Code -- 推荐。
[*]MPICH - MPICH 是 MPI-3.1 标准的高性能且广泛可移植的实现 Source Code 其他。
[*]MVAPICH - MVAPICH 是俄亥俄州立大学开发的 MPI-3.1 标准的开源实现 BSD。
[*]Intel-MPI - Intel-MPI 是 Intel 编译器套件中包含的 MPI-3.1 实现,采用其他许可协议。
参考资料
[*]软件测试精品书籍文档下载持续更新 https://github.com/china-testing/python-testing-examples 请点赞,谢谢!
[*]本文涉及的python测试开发库 谢谢点赞! https://github.com/china-testing/python_cn_resouce
[*]python精品书籍下载 https://github.com/china-testing/python_cn_resouce/blob/main/python_good_books.md
[*]Linux精品书籍下载 https://www.cnblogs.com/testing-/p/17438558.html
[*]python八字排盘 https://github.com/china-testing/bazi
[*]联系方式:钉ding或V信: pythontesting
并行计算
[*]ArrayFire - 这是一个通用张量库,简化了并行架构上的软件开发过程,采用其他许可协议。 Source Code BSD-3-Clause license-- 推荐
[*]OpenMP- OpenMP 是一个支持多平台共享内存多处理编程的应用程序接口,采用其他许可协议。
基准测试
[*]OSU Benchmarks - 由俄亥俄州立大学开发的 MPI 基准测试工具集合 Source Code 。
[*]Intel MPI Benchmarks - 英特尔为其 Intel MPI 开发的基准测试集。
[*]HPCC Systems - HPCC 系统(高性能计算集群)是一个开源的大规模并行处理计算平台,用于大数据处理和分析 Source Code 。
[*]LINPACK - LINPACK 是一组用于求解线性系统的有效 Fortran 子程序,其基准测试对 HPC 很有用。
[*]IOzone - IOzone 是一个文件系统基准测试工具 OSS。
[*]IOR - 交错或随机是一种用于测试其他并行文件系统的有用基准测试工具。
[*]MDtest - MDtest 是一个基于 MPI 的应用程序,用于评估文件系统的元数据性能。
[*]FIO - 灵活 I/O 是一个高级磁盘基准测试工具,依赖于内核的 AIO 访问库 Source Code GPL-2。
[*]elbencho - 用于文件、对象和块的分布式存储基准测试工具,支持 GPU,采用 GPL-3 许可证。
其他
[*]OpenOnDemand- Open OnDemand 帮助计算研究人员和学生高效利用远程计算资源,使其能够从任何设备轻松访问 Source Code MIT 许可证。
[*]Open XDMod - Open XDMoD 是一个开源工具,用于简化高性能计算资源的管理 Source Code LGPL-3。
[*]Coldfront - ColdFront 是一个开源资源分配系统,旨在为高性能计算资源的管理、报告和衡量科学影响提供一个中央门户 Source Code GPL-3。
[*]Pavilion2 - Pavilion 是一个基于 Python 3(3.6+)的框架,用于在高性能计算系统上运行和分析测试 Source Code 其他。
[*]Reframe - 一个强大的 Python 框架,用于编写和运行适用于高性能计算系统的可移植回归测试和基准测试。(Source Code BSD-3。
[*]OLCF Test Harness - OLCF 测试框架(OTH)有助于自动化测试应用程序、工具和其他系统软件 Source Code 其他。
[*]GoSlmailer](https://github.com/CLIP-HPC/goslmailer) - GoSlmailer 是一个用于 Slurm 的即插即用通知交付解决方案,支持 Slack、Mattermost、Teams 等。
性能
[*]TotalView - TotalView 是一款用于 HPC 应用程序的调试工具(专有)。
[*]Tau - TAU Performance System® 是一款用于分析用 Fortran、C、C++、UPC、Java、Python 等语言编写的并行程序性能的可移植剖析和跟踪工具包(其他)。
[*]Valgrind - Valgrind 是一款用于剖析程序以确定内存泄漏的工具 Source Code GPL-2。
[*]Paraver - Paraver 是一个非常灵活的数据浏览器,是 CEPBA-Tools 工具包的一部分。
[*]PAPI - 性能应用程序编程接口 (PAPI) 是一个性能分析工具(源代码)等。
并行 shell
[*]pdsh](https://linux.die.net/man/1/pdsh) - pdsh 在多个主机上并行运行终端命令 Source Code GPL-2。
[*]ClusterShell - 可扩展的集群管理 Python 框架 Source Code LGPL-2.1。
容器
[*]Apptainer - Apptainer 是一个开源容器系统 Source Code BSD。
[*]Charliecloud- Charliecloud 为高性能计算(HPC)中心提供用户定义的软件堆栈(UDSS)Source Code Apache-2.0。
[*](https://www.docker.com/ - Docker 是一组基于操作系统级虚拟化的平台即服务产品,用于以称为容器的包形式交付软件。 -- 推荐
[*]uDocker - 用于在批处理或交互式系统中以非 root 权限执行简单 Docker 容器的基本用户工具 Source Code Apache-2.0。
[*]Shifter - Shifter 是用于 HPC 的 Linux 容器 Source Code 其他。
[*]HPC Container Maker- HPC 容器生成器是英伟达的开源工具,用于更轻松地生成容器规范文件。 Apache-2.0.
[*]Scarus - 适用于 HPC 的 OCI 兼容容器引擎(BSD)。
[*]Singularity HPC - Singularity 注册表 HPC(shpc)允许您将容器作为模块进行安装。 Source Code MPL 2.0。
环境管理
[*]Lmod - Lmod:基于 Lua 的环境模块系统,支持读取 TCL 模块,并支持软件层次结构(源代码)其他。
[*]环境模块 - 环境模块:提供对用户环境的动态修改 Source Code GPL-2。
[*]Anaconda - Anaconda 是用于计算科学的 Python 和 R 发行版。 -- 推荐
[*]Mamba - Mamba 是用 C++ 重新实现的 conda 包管理器(源代码)BSD。 -- 推荐
可视化
[*]Visit - VisIt - 基于网格的科学数据可视化和数据分析Source Code BSD-3。
[*]Paraview - ParaView 是一个基于可视化工具包(VTK)的开源、多平台数据分析和可视化应用程序 Source Code BSD-3 -- 推荐。
并行文件系统
[*]GPFS - GPFS 是由 IBM 开发的专有高性能集群文件系统软件。
[*]Quobyte - 高性能文件系统(专有)。
[*]Ceph - Ceph 是一个分布式对象、块和文件存储平台 Source Code 其他。 -- 推荐
[*]Weka - 专为 HPC 设计的文件系统(专有)。
[*]Lustre/Exascaler - Lustre 是一个开源的分布式并行文件系统软件平台,设计用于可扩展性、高性能和高可用性 Source Code 其他。
[*]BeeGFS - BeeGFS 是一个硬件独立的 POSIX 并行文件系统,专注于性能,设计用于易于使用、简单安装和管理专有。
[*]OrangeFS - OrangeFS 是一款专为 Linux 集群设计的下一代并行文件系统Source Code 其他。
[*]MooseFS - Moose 文件系统是一个开源的、符合 POSIX 标准的分布式文件系统,由 Core Technology 开发 Source Code GPL-2.0。
编程语言
[*](https://julialang.org/ - Julia 是一种用于技术计算的高级、高性能动态语言,由 MIT 开发。
[*]Futhark - Futhark 是一种纯函数式数据并行编程语言,属于 ML 语言家族 isc。
[*]Chapel - Chapel 是一种专为大规模高效并行计算设计的编程语言,采用 Apache-2.0 许可证。
监控
基于 Prometheus
[*]Slurm Exporter - 用于从 Slurm 收集性能指标的 Prometheus 导出器,采用 GPL-3.0 许可证。
[*]Slurm Exporter - 通过 Rest API 实现的 Prometheus 导出器,采用 GPL-3.0 许可证。
[*]Infiniband Exporter - InfiniBand 导出器从 InfiniBand 交换机和 HCA 收集计数器 Apache-2.0。
[*]Cgroup Exporter - Produces metrics from cgroups Apache-2.0.
[*]Cgroup Exporter - 从 cgroups 生成指标 Apache-2.0。
[*]GPFS Exporter - GPFS 导出器从 GPFS 文件系统收集指标 Apache-2.0。
[*]Lustre Exporter - 用于 Lustre 并行文件系统的 Prometheus 导出器 GPL-3.0。
[*]DCGM Exporter - 基于 DCGM 的 NVIDIA GPU 指标 Prometheus 导出器 Apache-2.0。-- 推荐
期刊
[*]Journal of Super Computing - 一本关于高性能计算机设计、分析和应用的国际期刊。
播客
[*]This week in HPC - 每周,Intersect360 Research 首席执行官 Addison Snell 和 HPCwire 编辑 Tiffany Trader 解析当周最重要的 HPC 新闻。
[*]Exascaler Project - ECP 的《Let's Talk Exascale》播客深入幕后,与推动能力强且可持续的 exascale 计算生态系统落地的人士对话。
[*]@HPCpodcast - 跟随Shahin Khan和Doug Black,探讨超级计算技术及其塑造的应用、市场和政策。
博客
[*]HPCWire - 自1987年以来,一直报道世界上最快的计算机及其运营者。
[*]InsideHPC - InsideHPC 是一份全球性出版物,以全面且富有洞见的报道著称,专注于 HPC-AI 社区,连接供应商、终端用户和 HPC 战略家。
[*]The Next Platform - 提供对大型企业、超级计算中心、超大规模数据中心和公共云中高端计算的深度报道。
[*]The Register HPC - The Register 是全球领先且值得信赖的在线企业技术新闻出版物,全球读者约4000万。
[*]HPC at Dell - Dell 提供的高性能计算知识库文章。
会议
[*]Pearc - 先进研究计算的实践与经验。
[*]Supercomputing (SC) - 国际高性能计算、网络、存储与分析大会。
[*]Supercomputing International (ISC)——国际高性能计算、网络、存储与分析会议。
[*]CCGrid——IEEE/ACM国际集群、云与互联网计算研讨会。
[*]IEEE-HPEC——IEEE高性能嵌入式计算会议。
[*](https://hotchips.org——半导体行业领先的高性能微处理器及相关电路会议。
[*]Hot Interconnects - IEEE关于所有规模互联网络的软件架构与实现的会议。
[*]ESSA - 极端规模存储与分析研讨会。
[*]IEEE-IPDPS - IEEE国际并行与分布式处理研讨会。
[*]ESPM2 Workshop - 极端规模编程模型与中间件国际研讨会。
[*]LCI Workshops - Linux集群研究所(LCI)为全球高性能计算社区提供集群部署与应用的教育及高级技术培训。
[*]HPC Carpentry - 教授高性能计算基础技能。
网站
[*]Top500 - TOP500项目对全球500台最强大的非分布式计算机系统进行排名并详细介绍。
用户组
[*]MVAPICH - MUG会议为所有与会者(用户、系统管理员、研究人员、工程师和学生)提供一个开放论坛,讨论并分享使用MVAPICH库的知识。
[*]Slurm - 年度Slurm用户组会议。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页:
[1]