重庆理工大学学报(自然科学) ›› 2023, Vol. 37 ›› Issue (9): 208-216.
胡昌秀,张仰森,彭 爽,陈 涵
摘要: 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待 解决与优化。针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口 3个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进 行研究。平台以 Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了 SparkOnAngel 与 TensorFlowOnSpark2种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的 标签,并借助资源模型的双重表示,进行调度算法优化。结果表明:该平台与传统的 spark集群 相比,在 5个 minist_spark与 5个 WordCount混合任务场景下,执行耗时降低 13.4%;在大批量 的 WordCount任务场景下,当作业量达到 60时,执行耗时可降低至 32.31%。平台能够扩展对 GPU资源的管理,调度算法更加灵活高效,可为多个框架提供统一的调用接口。
中图分类号: