1. 目录
HTCondor环境配置完成后,安装文件目录如下:
其中bin目录里面存放了一系列condor_开头的可执行程序,正是通过这些指令程序来实现分布式计算的。其中有个GUI程序condor_birdwatcher.exe,打开后运行界面如下:
从程序名称可以看出这是个查看器程序,分别显示condor_q与condor_status的输出信息。
execute目录是程序执行目录,当集群运行时,会把程序、数据等发送到该目录中运行。
condor_config是HTCondor的配置文件,也就是上一章配置的环境都保存在这个文件中。一些更加高级的功能,可以通过修改这个配置文件来实现。
2. 进程
HTCondor环境配置完成后,服务项会启动一个condor服务:
默认这个服务是延迟启动的,一旦启动就会运行一系列condor_开头的后台进程:
这些后台进程的具体功能可以参考HTCondor的文档。其中,发送的计算任务程序会进一步封装成condor_exec,在任务机器运行。
3. 命令
HTCondor可以在命令提示符中运行一系列condor_开头的命令(与bin目录中的可执行程序对应),其中最重要的命令有以下几个:
3.1. condor_q
显示的是当前任务队列中任务的运行情况:
此时由于没有提交任务,所以显示为空。
3.2. condor_status
显示的是当前计算机集群中计算资源的情况:
可以看到这里连接了两台机器,DESKTOP-OVH是一台12核的主机,charlee-PC是一台4核的主机,每一个CPU核心都算作一个计算资源。
3.3. conodr_submit
提交任务命令。HTCondor通过一个任务描述文件来提交任务,提交后会返回一个任务ID。具体的命令为:
conodr_submit 任务描述文件路径
第一次提交任务时,一般会有如下提示:
这时可以通过以下命令,并输入本机密码,将证书添加到HTCondor的证书管理中心中即可:
3.4. conodr_rm
通过任务ID,删除特定的任务:
conodr_rm 任务ID
一般来说,通过以上简单的命令,就可以完成初步的分布式计算。