重庆理工大学学报(自然科学) ›› 2023, Vol. 37 ›› Issue (9): 134-140.

• 机械·材料 • 上一篇    下一篇

一种基于 DDPG算法的 6轴机械臂控制研究

何联格,李天华,聂远航   

  1. (1.重庆理工大学 汽车零部件先进制造技术教育部重点实验室,重庆 400054; 2.北京信息科技大学 现代测控技术教育部重点实验室,北京 100192; 3.重庆青山工业有限责任公司,重庆 402761
  • 出版日期:2023-10-17 发布日期:2023-10-17
  • 作者简介:何联格,男,博士,讲师,主要从事新能源汽车整车及零部件系统热管理研究,Email:heliange@cqut.edu.cn;通 信作者 妥吉英,男,博士,讲师,主要从事非线性动力学、智能控制研究,Email:tjy@cqut.edu.cn。

Research on the control of a six-axis robotic arm using the DDPG algorithm

  • Online:2023-10-17 Published:2023-10-17

摘要: 针对传统控制算法在复杂环境下,精度低、稳定性不足等问题,提出了一种基于深 度确定策略梯度算法(deepdeterministicpolicygradient,DDPG)的控制算法,以更好地解决 6轴 机械臂在三维空间中的控制难题。在 MuJoCo平台上建立仿真环境,引入所设计机械臂为测试 对象,并采用 DDPG算法、柔性动作评估算法(softactorcriticalgorithms,SAC)和双延迟深度确 定策略梯度算法(twindelayeddeepdeterministicpolicygradient,TD3)对仿真环境下的机械臂进 行了几组对比测试。研究表明:以 DDPG算法为基础的机械臂控制方法能够有效地提高机械臂 的控制精度,相对于 SAC、TD3等算法稳定性较好。

关键词: 6自由度, 机械臂, 控制, 强化学习, DDPG

Abstract:  A reinforcement learning method based on Deep Deterministic Policy Gradient(DDPG) is presented to more effectively tackle the problem of controlling a six-axis robotic arm in three-dimensional space in order to address the issues of low accuracy, stability, and executability of existing control algorithms in complicated situations. The simulation environment is established in the MuJoCo platform, the planned robotic arm is imported as the test object, and the DDPG algorithm, the Soft Actor-Critic Algorithms (SAC), and the Twin Delayed Deep Deterministic Policy Gradient (TD3) are utilized for repeated comparison tests in the simulation environment. The study demonstrates that the DDPG algorithm-based robotic arm control approach can successfully increase the accuracy and stability of robotic arm control, and that this algorithm is more stable than SAC and TD3.

中图分类号: 

  • TP241