常见问题
作业运行时实际占用CPU核数过多
在作业中限定使用的CPU核数与申请核数相同,或者尝试在提交作业时添加如下参数
#BSUB -R affinity[core:cpubind=core:membind=localprefer:distribute=pack]
特别是Python,有些Python包会自动满核并行的,需要使用环境变量(如 OMP_NUM_THREADS
)等方式设定线程数。如果实在不行可以 #BSUB -x
独占节点运行作业。
登录节点进行网络接入认证
集群中的登录节点进行网络接入认证后即可访问互联网,认证后登录节点所有用户均可访问互联网,请注意网络安全!。
命令行登录和登出p.nju.edu.cn的方法如下
/fs00/software/bin/pnju -u <username> -p <password> -i #登录网络
/fs00/software/bin/pnju -o #登出网络
或
curl -s "http://p.nju.edu.cn/portal_io/login?username=<username>&password=<password>" #登录网络
curl -s http://p.nju.edu.cn/portal_io/logout #登出网络
计算节点访问网络
所有计算节点均不能访问外网(含校园网和互联网),如需访问可以单独申请开放。
pip安装包到自己的目录下
Python的大多数包不需要root权限也能安装,只需在pip install后加-t指定安装目录即可,如:
cd scikit-opt-master
pip install -t $HOME .
这样就装到自己的家目录下。在~/.bashrc里或者作业脚本中加上环境变量
export PYTHONPATH=$HOME:$PYTHONPATH
排队作业数量上限
动态限制单个用户排队作业数量不能超过 (30000-当前用户PEND作业数量)/10