爬虫管理调度. 网站类爬虫管理调度承担了负责网站类搜索节点采集任务的分配、调度功能,系统以集群调度技术为基石,对外提供稳定、高效的调度处理能力。同时支持人 工干预,可以采用灵活配置的方式动态调整调度策略。管理调度中心部署结构采 用 Master/Slave 主从部署方式,互为备份。Master 调度中心和 Slave 调度中心 会监控彼此的运行状态。正常情况下 Master 调度中心进行调度,当 Master 调度中心出现故障时,Slave 调度中心能够及时监测到并基于投票算法产生新的 Master 服务节点从而接管调度服务。调度系统对集群下的爬虫采集任务进行动 态调整,以保证采集任务高效、稳定运行。通过爬虫上报的 CPU、内存、带宽使 用率、爬虫抓取网站数目等情况综合考虑,利用负载均衡算法计算出新的调度任 务执行的爬虫机器,充分利用各个爬虫达到最优化处理。调度系统同时支持人工 干预,可以采用灵活配置的方式动态调整调度策略。