DOC文库 - 千万精品文档,你想要的都能搜到,下载即用。

昆植超算用户手册.doc

forerunner8 页 2.032 MB下载文档
昆植超算用户手册.doc昆植超算用户手册.doc昆植超算用户手册.doc昆植超算用户手册.doc昆植超算用户手册.doc昆植超算用户手册.doc
当前文档共8页 2.88
下载后继续阅读

昆植超算用户手册.doc

昆明超算分中心用户试用说明 昆明超算分中心采用的是曙光 5000 系列的高性能集群计算机系统,其整体 计算能力理论峰值为 10T flops。2009 年 12 月完成安装,现已投入试运行。本文 主要介绍该计算机的整体的软硬件环境,以及机器的使用方法。 1 机器基本软硬件环境 1.1 硬件部署 昆明超算分中心采用 60 台曙光刀片服务器、两台曙光 8 路胖节点为计 算服务器,10 台机架式服务器作为 IO、登陆管理及网格服务器,网络系统 由千兆网和 Infiniband 高速网构成,存储系统为 100T 的盘阵。 具体安装配置情况如下: 1) 计算节点:Node1 至 Node060 为曙光 TC2600 刀片服务器(4 路 4 核,32G 内存),Node61、Node62 为 8 路 4 核胖节点,配置 128G 内存,供 需要大内存的计算任务使用。共用 1024 个核供高性能计算使用,可提供 9 万亿次的理论计算能力。 2) IO 节点(Node63 至 Node68):4 台机架式服务器组成 Lastre 并行 文件系统 IO 节点,连接 84T 盘阵;另有两部服务器构成 HA 双机节点,连 接 16T 盘阵(NSF 文件系统),为 Solexa 测序仪提供高可靠的 IO 传输保障。 3) 管理及登陆节点:Node69 为用户登陆节点;Node70 为管理节点, 曙光配置的集群管理系统 Gridview,Platform 公司的 LSF 作业管理系统等管 理软件安装部署在该节点上。 5) 存储系统:配置了 100T 盘阵,其中 84T 部署为并行文件系统 Lustre (做完 raid6 加热备后,剩余约 60T),16T 的空间部署为网络文件系统 NFS (做完 raid6 加热备后,剩余约 12T),挂载在双机节点的/Solexa 下,保证 测序数据的实时高可靠传输。 6)网络配置:系统配置两套网络,千兆网和 Infiniband 网。超算中心网 络以光纤与研究所内网连接。 1.2 系统软件部署 1 )操作系统:计算节点和前端接入节点的操作系统均为 64 位 SuSE Linux Enterprise Server 10,提供了一个标准的 64 位 Linux 操作环境,用户需 要事先适当熟悉命令行方式的基本 Linux 操作,特别是文件目录操作,并应 该会熟练使用一种编辑器(vi 等)。 2)作业管理系统:采用 Platform 公司的 LSF 作业管理系统。 为保障计算系统有效利用众多处理器核心所提供的计算能力,必须有一 个统一的作业管理系统,统一地跟用户交互,接收提交的各类计算任务,统 一地分配计算资源,将各种各样的用户作业具体指派到节点上执行。对用户 来说不需要关心计算具体是在哪里进行的,系统会自动按照优化原则调度, 这不仅方便了用户的使用,而且提高了整个系统的利用率。作业管理系统是 整个超级计算机最重要的软件环境之一,因此我们安装配置了目前最常用的 LSF (Load Sharing Facility) 作业管理系统。 3)编译环境:系统安装的编译器、并行环境以及数学库见下表: 分 类 编 译 器 名称 路径 版本 intel 编 /public/software/ 10.0.2 包含 C, C++, Fortran77, 译器 intel 3 pgi 编译 /public/software/ 器 pgi openmpi -gnu MPI openmpi -intel openmpi -pgi /public/software/ mpi/openmpi132-gn u /public/software/ mpi/openmpi132-in tel /public/software/ mpi/openmpi128-pg i 说明 Fortran90 编译器 包含 C, C++, Fortran77, 7.1.4 Fortran90 编译器。包含 acml 数学库 openmp i1.2.8 openmp i1.2.8 openmp i1.2.8 支持 infiniband 和千兆 网,使用 mpicc 等 mpi 编 译器时调用 gnu 编译器 支持 infiniband 和千兆 网,使用 mpicc 等 mpi 编 译器时调用 intel 编译器 支持 infiniband 和千兆 网,使用 mpicc 等 mpi 编 译器时调用 pgi 编译器 /public/software/ Gotobla mathlib/libgoto-g s-gnu nu.a fftw2-f mathlib/fftw215-f loat 库 loat-gnu/ fftw3-f /public1/software loat-gn /mathlib/fftw312- u float-gnu/ blas 库,使用 gcc 和 g77 编译 lapack 库 _gnu.a /public/software/ 目前已知的性能最好的 使用 gnu 编译器编译的 mathlib/liblapack -gnu 学 as1.26 /public/software/ lapack 数 Gotobl fftw2. 1.5 fftw3. 1.2 单精度 单精度 /public/software/ MKL intel/Compiler/11 使用 mpich .1/059/mkl /public/software/ acml 2 pgi 使用 openmpi 应用软件部署 2.1 生物信息软件部署: mpiblast150 /public/software/mpiblast150 clustW-mpi /public1/software/mathlib/fftw312-float-gnu/ hmmer-mpi /public/software/intel/Compiler/11.1/059/mkl 2.2 化学计算软件部署 gauss03 /public/software/gauss dock6 /public/software/dock6-openmpi *注:具体软件作业提交方式请参考“lsf training”演示文稿中的实例。 3 上机操作 我们会给各位老师开通试用的账号和密码。 请需要试用的老师发送您的信息:姓名、课题组、研究方向、主要使用的 软件、其他软件需求等信息发送到 zhuanghuifu@mail.kib.ac.cn ,我将回复给 您试用的账号密码。待最终的用户管理办法出台后,如果您想继续使用超算 中心的计算环境,在签署相关文件后,该试用账号可转为正式的用户账号。 3.1 登陆 用户在 windows 或 Linux 下,使用客户端,通过 ssh 协议来链接。使用 的客户端大家登陆 ftp://ftp.kib.ac.cn, 到“/Incoming/Document incoming/超算 相关软件及教程”目录里面, (注:如果登陆 ftp 需要用户名和密码,请填写 kibftpuser 密码:kibftpuser2003,以后我们的一些软件教程信息都会放在里 面。) 文本界面登陆软件:SSH Secure Shell Client、putty。 以 ssh client 为例 输入服务器 IP 地址:192.168.119.169 用户名:***** 密码:******。 即可登陆服务器终端进行命令操作。 外单位用户登录: (1)登录 210.72.88.217,然后 ssh 到 node69 之后与内网用户一样操作。 (2)院网格用户——使用科院计算环境专用 putty 可登陆下载 (http://www.scgrid.cn/new/download/putty.zip) 。如您的用户名为 test 则 Host Name 输入 test@scgrid,选择 SSH 连接,连接后输入密码,即登录 到默认的计算节点,即为昆明的节点: Last login: Mon Jan 18 12:22:40 2010 from 210.72.88.215 //////////////////////////////////////////////////////////////////////////// //// Notice //// ////Welcome to SCE! //// //// support: haili@sccas.cn //// //////////////////////////////////////////////////////////////////////////// [kib@sce ~]$ 登录后的界面,如不是上述界面,请联系我们。 注 : 也 可 以 使 用 其 他 的 ssh 工 具 , 不 过 要 输 入 我 们 网 格 的 服 务 器 地 址 210.72.88.217。 ( 3 ) portal 模 式 , 仅 限 于 已 经 集 成 的 软 件 , 如 Gauss 等 。 详 见 “ SCE PORTAL 用户手册” 文件传输 以 SSH Secure File Transfer Client 为例。 外网用户登录 210.72.88.217。 内网登录:192.168.119.169。 图形软件运行界面 软件:xmanager —》xstart 以 Xstart 为例,启动、 输入 ssh IP 地址 输入 用户名,密码即可登陆 在 xshell 下可以启动图形界面软件:例如 #Firefox 即可看到图形界面编辑器。 3.2 作业提交和软件使用: 用户登陆后,是在登陆节点 node69 上,用户可以在登录节点查看目录、 编辑文件、查看作业、查看资源使用情况等。但是用户不允许在登录节点运 行计算程序或前后处理程序,只能以作业形式向作业调度系统提交,由作业 调度软件安排程序的具体执行节点。 (该节点功能为管理用户登录等事务,如 果在 node69 上直接运行程序,会造成该节点很忙,影响大家的使用) 这里列出常用的几个作业管理命令: bsub -W 360 -n 32 -q QN_Norm -a openmpi mpirun.lsf ./blast.sh Job <819> is submitted to queue . 参数说明: -a openmpi 指定用 openmpi 运算 -W 360 运行 360 分钟 - n 32 需要 32 个 CPU -mpirun.lsf, 使用 openmpi 时的关键字 -q QN_Norm 指定 QN_Norm 队列 隐藏参数:output.%J, 标准输出文件(包括相关错误提示) bjobs 查看自己的所有运行任务情况;说明:输入 bjobs 后,会列出当前 用户正在运行的所有作业,最左边一列数字是每个作业的 JOBID,一些其他 命令使用的时候需要调用这个 JOBID。 bjobs -l 查看所有运行任务的详细情况 bjobs –l JOBID 查看 JOBID 这个任务的详细情况 bpeek JOBID 查看某任务屏幕输出 bpeek -f JOBID 跟踪查看某任务屏幕输出 bkill JOBID 终止某任务运行 bkill JOBID1 JOBID2 JOBID3 终止多个任务运行 busers 查看用户账号计算资源权限 bqueues 查看所有任务队列的状态 bstop JOBID 临时挂起某个计算作业,为其它计算腾出资源 bresume JOBID 恢复由 bstop 挂起的作业 执行 busers 命令的屏幕输出如下: MAX: 用户可用 core 数上限 NJOBS: 已提交作业所需要的全部 core 数 PEND: 因种种原因正在队列中等待执行的作业所需全部 core 数 RUN: 正在运行的作业所使用的全部 core 数 SSUSP: 系统挂起的用户作业所使用 core 数 USUSP: 用户自行挂起的作业所使用 core 数 RSV: 系统为你预约保留的 core 数 一个作业提交到队列后,将有可能为以下的几种状态之一。 PEND 任务在队列中排队等待 RUN 任务正在执行 PSUSP 任务在队列中排队等待时被用户挂起 SSUSP 任务被系统挂起 USUSP 任务被用户自行使用 bstop 命令挂起 DONE 作业正常结束,exit 代码为 0 EXIT 作业退出,exit 代码不为 0 其他详细说明见“lsf training”演示文稿。 3.3 用户管理 主机用户密码修改 用户通过 ssh 登陆主机(192.168.119.169)后,为保障用户密码安全,请通 过 passwd 命令来修改初始主机密码。 3.4 其他说明: (1)超算环境现在试用阶段,安装部署的软件还不多,现征集大家的应 用软件安装需求,请老师们将软件名称、版本、使用简介、购买的必要性等 信息发送到 zhuanghuifu@mail.kib.ac.cn。 (2)试用阶段在系统管理、用户使用指导上有很多不足的地方,也请各 位老师提出意见、建议。

相关文章