昆植超算用户手册.doc
昆明超算分中心用户试用说明 昆明超算分中心采用的是曙光 5000 系列的高性能集群计算机系统,其整体 计算能力理论峰值为 10T flops。2009 年 12 月完成安装,现已投入试运行。本文 主要介绍该计算机的整体的软硬件环境,以及机器的使用方法。 1 机器基本软硬件环境 1.1 硬件部署 昆明超算分中心采用 60 台曙光刀片服务器、两台曙光 8 路胖节点为计 算服务器,10 台机架式服务器作为 IO、登陆管理及网格服务器,网络系统 由千兆网和 Infiniband 高速网构成,存储系统为 100T 的盘阵。 具体安装配置情况如下: 1) 计算节点:Node1 至 Node060 为曙光 TC2600 刀片服务器(4 路 4 核,32G 内存),Node61、Node62 为 8 路 4 核胖节点,配置 128G 内存,供 需要大内存的计算任务使用。共用 1024 个核供高性能计算使用,可提供 9 万亿次的理论计算能力。 2) IO 节点(Node63 至 Node68):4 台机架式服务器组成 Lastre 并行 文件系统 IO 节点,连接 84T 盘阵;另有两部服务器构成 HA 双机节点,连 接 16T 盘阵(NSF 文件系统),为 Solexa 测序仪提供高可靠的 IO 传输保障。 3) 管理及登陆节点:Node69 为用户登陆节点;Node70 为管理节点, 曙光配置的集群管理系统 Gridview,Platform 公司的 LSF 作业管理系统等管 理软件安装部署在该节点上。 5) 存储系统:配置了 100T 盘阵,其中 84T 部署为并行文件系统 Lustre (做完 raid6 加热备后,剩余约 60T),16T 的空间部署为网络文件系统 NFS (做完 raid6 加热备后,剩余约 12T),挂载在双机节点的/Solexa 下,保证 测序数据的实时高可靠传输。 6)网络配置:系统配置两套网络,千兆网和 Infiniband 网。超算中心网 络以光纤与研究所内网连接。 1.2 系统软件部署 1 )操作系统:计算节点和前端接入节点的操作系统均为 64 位 SuSE Linux Enterprise Server 10,提供了一个标准的 64 位 Linux 操作环境,用户需 要事先适当熟悉命令行方式的基本 Linux 操作,特别是文件目录操作,并应 该会熟练使用一种编辑器(vi 等)。 2)作业管理系统:采用 Platform 公司的 LSF 作业管理系统。 为保障计算系统有效利用众多处理器核心所提供的计算能力,必须有一 个统一的作业管理系统,统一地跟用户交互,接收提交的各类计算任务,统 一地分配计算资源,将各种各样的用户作业具体指派到节点上执行。对用户 来说不需要关心计算具体是在哪里进行的,系统会自动按照优化原则调度, 这不仅方便了用户的使用,而且提高了整个系统的利用率。作业管理系统是 整个超级计算机最重要的软件环境之一,因此我们安装配置了目前最常用的 LSF (Load Sharing Facility) 作业管理系统。 3)编译环境:系统安装的编译器、并行环境以及数学库见下表: 分 类 编 译 器 名称 路径 版本 intel 编 /public/software/ 10.0.2 包含 C, C++, Fortran77, 译器 intel 3 pgi 编译 /public/software/ 器 pgi openmpi -gnu MPI openmpi -intel openmpi -pgi /public/software/ mpi/openmpi132-gn u /public/software/ mpi/openmpi132-in tel /public/software/ mpi/openmpi128-pg i 说明 Fortran90 编译器 包含 C, C++, Fortran77, 7.1.4 Fortran90 编译器。包含 acml 数学库 openmp i1.2.8 openmp i1.2.8 openmp i1.2.8 支持 infiniband 和千兆 网,使用 mpicc 等 mpi 编 译器时调用 gnu 编译器 支持 infiniband 和千兆 网,使用 mpicc 等 mpi 编 译器时调用 intel 编译器 支持 infiniband 和千兆 网,使用 mpicc 等 mpi 编 译器时调用 pgi 编译器 /public/software/ Gotobla mathlib/libgoto-g s-gnu nu.a fftw2-f mathlib/fftw215-f loat 库 loat-gnu/ fftw3-f /public1/software loat-gn /mathlib/fftw312- u float-gnu/ blas 库,使用 gcc 和 g77 编译 lapack 库 _gnu.a /public/software/ 目前已知的性能最好的 使用 gnu 编译器编译的 mathlib/liblapack -gnu 学 as1.26 /public/software/ lapack 数 Gotobl fftw2. 1.5 fftw3. 1.2 单精度 单精度 /public/software/ MKL intel/Compiler/11 使用 mpich .1/059/mkl /public/software/ acml 2 pgi 使用 openmpi 应用软件部署 2.1 生物信息软件部署: mpiblast150 /public/software/mpiblast150 clustW-mpi /public1/software/mathlib/fftw312-float-gnu/ hmmer-mpi /public/software/intel/Compiler/11.1/059/mkl 2.2 化学计算软件部署 gauss03 /public/software/gauss dock6 /public/software/dock6-openmpi *注:具体软件作业提交方式请参考“lsf training”演示文稿中的实例。 3 上机操作 我们会给各位老师开通试用的账号和密码。 请需要试用的老师发送您的信息:姓名、课题组、研究方向、主要使用的 软件、其他软件需求等信息发送到 zhuanghuifu@mail.kib.ac.cn ,我将回复给 您试用的账号密码。待最终的用户管理办法出台后,如果您想继续使用超算 中心的计算环境,在签署相关文件后,该试用账号可转为正式的用户账号。 3.1 登陆 用户在 windows 或 Linux 下,使用客户端,通过 ssh 协议来链接。使用 的客户端大家登陆 ftp://ftp.kib.ac.cn, 到“/Incoming/Document incoming/超算 相关软件及教程”目录里面, (注:如果登陆 ftp 需要用户名和密码,请填写 kibftpuser 密码:kibftpuser2003,以后我们的一些软件教程信息都会放在里 面。) 文本界面登陆软件:SSH Secure Shell Client、putty。 以 ssh client 为例 输入服务器 IP 地址:192.168.119.169 用户名:***** 密码:******。 即可登陆服务器终端进行命令操作。 外单位用户登录: (1)登录 210.72.88.217,然后 ssh 到 node69 之后与内网用户一样操作。 (2)院网格用户——使用科院计算环境专用 putty 可登陆下载 (http://www.scgrid.cn/new/download/putty.zip) 。如您的用户名为 test 则 Host Name 输入 test@scgrid,选择 SSH 连接,连接后输入密码,即登录 到默认的计算节点,即为昆明的节点: Last login: Mon Jan 18 12:22:40 2010 from 210.72.88.215 //////////////////////////////////////////////////////////////////////////// //// Notice //// ////Welcome to SCE! //// //// support: haili@sccas.cn //// //////////////////////////////////////////////////////////////////////////// [kib@sce ~]$ 登录后的界面,如不是上述界面,请联系我们。 注 : 也 可 以 使 用 其 他 的 ssh 工 具 , 不 过 要 输 入 我 们 网 格 的 服 务 器 地 址 210.72.88.217。 ( 3 ) portal 模 式 , 仅 限 于 已 经 集 成 的 软 件 , 如 Gauss 等 。 详 见 “ SCE PORTAL 用户手册” 文件传输 以 SSH Secure File Transfer Client 为例。 外网用户登录 210.72.88.217。 内网登录:192.168.119.169。 图形软件运行界面 软件:xmanager —》xstart 以 Xstart 为例,启动、 输入 ssh IP 地址 输入 用户名,密码即可登陆 在 xshell 下可以启动图形界面软件:例如 #Firefox 即可看到图形界面编辑器。 3.2 作业提交和软件使用: 用户登陆后,是在登陆节点 node69 上,用户可以在登录节点查看目录、 编辑文件、查看作业、查看资源使用情况等。但是用户不允许在登录节点运 行计算程序或前后处理程序,只能以作业形式向作业调度系统提交,由作业 调度软件安排程序的具体执行节点。 (该节点功能为管理用户登录等事务,如 果在 node69 上直接运行程序,会造成该节点很忙,影响大家的使用) 这里列出常用的几个作业管理命令: bsub -W 360 -n 32 -q QN_Norm -a openmpi mpirun.lsf ./blast.sh Job <819> is submitted to queue