DOC文库 - 千万精品文档,你想要的都能搜到,下载即用。

动物研究所高性能集群计算平台管理条例(试行).docx

无名指的加冕 、4 页 22.994 KB下载文档
动物研究所高性能集群计算平台管理条例(试行).docx动物研究所高性能集群计算平台管理条例(试行).docx动物研究所高性能集群计算平台管理条例(试行).docx动物研究所高性能集群计算平台管理条例(试行).docx
当前文档共4页 2.88
下载后继续阅读

动物研究所高性能集群计算平台管理条例(试行).docx

动物研究所高性能集群计算平台管理条例(试行) (2012年4月5日所务会讨论通过) 第一章 总 则 第一条 为充分保障中国科学院动物研究所高性能集群计算平台(以下简称计算 平台)的高效、规范运行,全方位地服务于研究所的科学研究,特制定《动物研 究所高性能集群计算平台管理条例》(试行)(以下简称《管理条例》) 。 第二章 计算平台的使用和管理 第二条 计算平台实行有偿使用制,依据计算资源使用量对用户收费。严禁用户 在高性能集群计算平台上占用计算和存储资源进行与科学研究无关的活动,违者 将追究责任,并视其影响和损失轻重施以暂停使用、全所通报、关闭账号、经济 罚款、行政处罚等处分。用户必须无条件地遵守本《管理条例》,尊重计算平台 系统管理员(以下简称系统管理员),服从系统管理员的管理。 第三条 账号的申请、使用和管理 1.账户分为个人账户和公用账户。严禁用户将账号和密码泄露给其他人员。 所有账户都需要本人申请(公用账户限由研究组长申请)。新用户必须已有通过 终端使用服务器的经验,否则必须先参加相关培训。 2.个人账户只限本人使用,分为 PI 账号,员工账号和学生账号。严禁使用 他人的账号或允许他人使用自己的账号。公用账户供调试程序和研究组的初学人 员使用,进入调试队列。 3.默认情况下,同一个研究组的账号之间可以相互访问对方数据,不同研究 组之间不能互相访问。如果研究组之间需要互相访问,请研究组长向系统管理员 提出书面申请。 4.项目人员调动时(如学生毕业,员工调动等),请整理好用此账号建立的 所有数据,做好数据移交及备份清理工作,并提前申请账号注销。 5.注销账号须填写账号注销申请表,由本人和研究组长签字后至少提前一天 通知系统管理员;系统管理员将在七天内清除注销账号下的数据。 6.用户的账号密码必须设置 8 位以上,并注意加强密码复杂度,至少每半年 更换一次密码。 第四条 资源分配和使用 1.各类个人账户所对应的资源如下: PI 账号 员工账号 学生账号 最大 CPU 使用数 72 48 24 最大私有磁盘空间 100 G 80 G 50 G 用户如在短时间内需更大磁盘空间或更多 CPU 数,相应研究组组长需按要 求提交专门书面申请。公共账号可使用的资源与学生账号相同,不过只能使用调 试队列。 2.属主目录用于系统存放和管理用户的登陆配置和所使用软件的配置文件, 严禁用户在此存放程序和数据文件,避免占用和耗费宝贵的系统存储资源,影响 登陆连接服务。用户每次登陆后在属主目录下使用命令“du-k|sort-n”主动检查,发 现过大或异常文件应及时清理。 3.严禁在登陆节点运行程序。系统管理员对任何在管理节点运行的任务将直 接杀除,不予以提示。 4.程序异常中断崩溃或强制性退出有时会遗留 core 文件,如不及时清理也 将导致占用和耗费宝贵的系统存储资源,用户应在每次异常中断后,主动检查并 及时清除。 5.用户运行占用大规模资源 (占用大型机实际内存超过 50G) 的任务,必 须由研究组长事先提出书面申请。 第五条 任务和队列的管理 1.默认情况下,所有的任务都在瘦节点上运行。 2.PI 用户可以直接使用胖节点资源进行运算。其他用户,如需使用胖节点资 源,需由研究组长向系统管理员提出书面申请。 3.任务队列分为紧急任务队列、普通任务队列、长时间运行队列和调试队列。 4.紧急任务队列需由研究组长向系统管理员提交书面申请,批准后方可使用。 紧急任务队列拥有最高的任务优先级,可以最大限度地使用系统资源。 5.普通任务队列可以满足绝大部分的任务需求。每一个任务最多可以占用 72 个 CPU 核(因账号类型而异) ,最长可以运行 1 周时间。如果任务运行时间超过 1 周,系统会发送 Email 通知用户,并在 48 小时后自动删除该任务。 6.长时间运行队列是专门针对一些需要长时间(超过 1 周)运行的任务设置 的。这个队列不限制任务的运行时间,但每一个任务最多只可以使用 12 个 CPU 核。 7.调试队列专门用于程序调试和初学者使用。调试队列中的任务可以使用的 资源情况因个人账号类型而异,调试任务的运行时间最多只有 12 个小时,系统 会在 12 个小时后自动终止运行的任务。 8.同一队列中的任务的优先级别从高到低依次为:PI 用户,员工用户,学生 用户,公共用户,所外用户,以及院高性能计算环境用户,并按任务提交的时间 顺序由服务器自动决定运行顺序。 9.在任何情况下,用户都务必先检测提交程序的正确性以及资源占用的合理 适度,通过小批量测试数据预估占用 CPU、内存和存贮资源;强烈建议用户进 行代码优化以减少 CPU、内存、I/O 资源占用,及时释放申请的内存,优化文件 目录读写访问等 I/O 功能,避免资源和计算时间的浪费。 10.计算任务提交后,用户应注意定时用命令“qstat”查看自己进程状态以及 CPU 内存、I/O 及内存等使用情况。当需要中断自己进程时可以用“qdel” 命令, 必要时联系管理员协助。 11.计算任务完成或中断后, 用户应及时检查属主目录和计算任务启动目录 内是否生成 core 文件,及时检查计算结果的完整性和异常数据。 12.用户应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。 临时性文件存放不要超过三个月。重要数据应打包压缩存放。 第六条 软件安装及使用 1.对于一些广泛使用的软件,用户可以向系统管理员提出申请,由系统管理 员统一安装。 2.用户可以自行安装普通的专业软件,如需帮助,请提前联系系统管理员。 3.必须由系统管理员才能安装的专业软件,用户需要提出书面申请(包括邮 件) ,在批准后由系统管理员安装。 4.如用户需对现有的软件进行更新,可以向系统管理员提出申请,由系统管 理员审核、请示后进行更新。 5.用户如果在使用软件时发现 Bug,请及时与系统管理员联系。 6.严禁私自安装任何与研究工作无关的软件。 第三章 机房的使用和管理 第七条 研究所计算平台机房是安装和运行生物计算核心设备系统的专用机房, 承接所内各类计算任务。任何人员进出机房必须严格遵守本管理制度。 第八条 出入管理 1.研究所计算平台机房仅允许系统管理员出入,其他任何人员,未经研究所 “高性能集群计算平台专家工作小组”(以下简称“专家工作小组”)组长允许不得 擅自出入机房。 2.进入机房的人员不得携带易燃、易爆、各种液体物质以及具有腐蚀性、强 电磁、辐射性等对设备具有潜在损害的物品。 3.进入机房的人员应更换专用工作鞋或佩戴鞋套。 4.机房设备的相关维护人员进入机房需先征得专家工作小组组长的同意,并 必须由系统管理员陪同,不得擅自进入。 第九条 安全管理 1.机房必须建立人员出入、维护、故障、维修、用户辅助等专用记录,由系 统管理员负责。 2.机房内必须保持安静,严禁在机房内吸烟、喝水、吃食物、嬉戏、会客等 和进行产生振动的活动。 3.机房内的消防器材、监控和报警设备应按规定进行定期检查和不定期巡查, 以保证其有效性。 4.机房内主机等设备发生故障或者进行维修,必须做好故障维护记录。 5.机房温度应严格控制在 28 摄氏度以下,当发生停电或空调停止工作时应 及时关闭计算机和存储系统。 6.夏季需注意保护机房室外机,当室外温度上升至 30 摄氏度以上时,应及 时采取必要降温措施,防止温度过高而导致压缩机自保护。 7.机房必须设置和启动自动报警系统,包括声光报警或者手机短信报警。手 机报警信息接收人为系统管理员、网络信息中心主管、“专家工作小组”组长。 8.机房用电须安装接地系统、防雷系统。 9.绝对禁止在机房中存放易燃、易爆、易腐蚀物品。 10.禁止在机房中私拉电线和使用其它无关电器设备。 第四章 系统管理员职责 第十条 系统管理员负有崇高的责任,负责维护计算平台的高效运行和机房及设 备的安全;系统管理员必须全方位为科研和用户服务,严格遵守本章的规定、执 行《管理条例》的其它条款。 第十一条 责任和义务 1.实时监控。工作时间内随时监控中心设备的运行状况,发现异常情况应立 即按照预案规程进行操作,并及时上报和详细记录。工作时间外尽最大可能监控 中心设备的运行状况,及时排除异常情况。 2.定时巡逻。每天定时巡视机房至少一次并做记录。 3.及时响应。对于用户的提问和要求,必须 24 小时内给与答复。 4.系统维护。负责维护系统的稳定,定期更新系统软件,安装系统补丁并做 记录。 5.软件安装。负责安装系统软件和用户需求软件,并做记录。 6.硬件维护和升级。负责硬件维护和维修(必要时联系厂商进行维修),并 做维修记录;负责硬件系统的升级,如磁盘扩容、增加计算节点等。 7.提前通知。在需要关闭主机或节点时(如系统维护、更新,硬件安装等), 必须提前 48 小时,Email 通知所有用户。 8.任务调整。随时查看任务运行情况,可以根据需要,对任务优先级和任务 状态进行调整,确保系统的稳定。 9.每月报告。每月第一个工作日给所有用户的研究组长发邮件,告知上一个 月该研究组所有成员的资源使用情况。 10.组织培训。每年至少组织一次计算平台使用基础培训,并根据用户的要 求,规划高级培训。 11.未经“专家工作小组”组长许可,不得允许非机房工作人员擅自上机操作 和对运行设备及各种配置进行更改。 12.严格执行密码管理规定,不对任何人泄露用户密码和超级用户密码,对 操作密码作定期更改。如因特殊工作需要,专家工作小组组长确实需要超级用户 密码时,须通过书面形式(包括邮件、手机短信)联系系统管理员;无书面形式 联系,系统管理员应拒绝告知该密码。专家工作小组组长需同样遵守本条规定。 此特殊情况结束后,系统管理员应即时更换密码。 13.应恪守保密制度,不得擅自泄露各种信息资料与数据。 14.当声光报警或者短信报警出现时,应及时处理温度、漏水、断电等问题, 周末或节假日时应及时与值班人员取得联系,并及时向其他手机报警信息接收人 员通报处理情况。 15.负责对报警装置及时进行充值,防止报警手机卡过期。 16.因出差或其它不能及时处理应急事件的情况时,应至少提前三天向网络 信息中心主管和“专家工作小组”组长请假。 第五章 附 则 第十二条 动物研究所高性能集群计算平台实行专家组负责指导制度;动物研究 所“高性能集群计算平台专家工作小组”(动内字〔2011〕40 号)负责监督和指 导计算平台的运行,协调该系统运行使用过程中出现的相关问题,并将根据系统 运行和用户使用情况提出建议。 第十三条 本《管理条例》由动物研究所“科技信息中心”进行解释、受理建议并 负责修订,从公布之日起试行。

相关文章