下载此文档

基于SAC算法的机械臂控制方法与分析.docx

文档分类：汽车/机械/制造 | 页数：约14页举报非法文档有奖

1/14

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/14 下载此文档

文档列表 文档介绍

基于SAC算法的机械臂控制方法与分析

王骏超
摘要：机械臂作为一种常见的自动化设备，关于其控制算法的研究，一直是相关领域的热点。本文结合目前比较热门的人工智能理论，将强化学****方法引入到机械臂控制中，提出一种基于Soft Actor-Critic Algorithms算法的控制策略，以更好地解决三维空间下多轴机械臂的轨迹规划问题。利于CoppeliaSim平台，搭建仿真环境，选择UR5机械臂作为实验对象，进行了多组对比实验。结果表明：基于策略熵最大化的SAC算法，提高了训练样本利用率，保证了学****结果的最优。在用于三维空间中多轴机械臂控制任务时，不仅可以克服传统控制算法存在的模型依赖性高，规划精度低的不足，并且相比一般强化学****算法，具有更快的学****效率和更高的稳定性，轨迹也更为平滑，具有很好的实用价值。
关键词：机械臂控制;SAC算法;轨迹规划;强化学****br/>：TP242 ：A ：1673-260X（2020）10-0033-07
1 引言
机械臂是一种最常见的也是最早出现的自动化设备，关于其控制算法的研究一直是业内关注的焦点[1，2]。目前比较常见的机械臂轨迹规划方法主要包括A*算法、人工势场法、快速扩展随机树算法等。A*算法是一种典型的启发式搜索（Heuristically Search），一直受到广泛的研究[3]，但是A*算法的估价函数构造往往需要人工经验尝试，影响了规划的稳定性和精度。人工势场法具有良好的实时性[4]，但会出现局部最优或振荡不收敛的情况，在环境比较复杂或者机械臂自由度较高时，不能保证规划的稳定性和可靠性。快速扩展随机树法理论简单且容易实现[5]，当参数设置合理时，可有效避免出现局部最小值的情况。但是所得到的轨迹曲线比较粗糙，往往并不是最优[6]，算法的效率较低，并且重复性较差，控制效果不稳定
[7]。因此，传统的轨迹规划算法在解决机械臂控制问题时均存在着效率低、稳定性差、模型依赖性高的缺陷。
将强化学****算法理论与机械臂运动轨迹规划控制问题相结合，可以有效弥补和改善传统算法存在的不足。并且，随着研究的深入也出现了一些成功的案例，例如：Peters J等人在2006年利用强化学****方法使7自由度的SARCOS Master机械臂完成挥棒击球的任务[8];2011年，Durrant-Whyte H利用一个桌面级机械臂和深度摄像头[9]，通过强化学****的方法使其完成了空间积木块的堆叠任务;Mulling K和Kober J等人在2013年以学****打乒乓球为例，介绍了一种机器人通过与人的物理交互来学****的新框架[10];Gu S等人在2017年提出一种基于深度Q函数离线训练策略的深度强化学****算法，通过多台机器人并行学****来训练真实的物理机器人执行复杂的三维操作任务[11]。虽然强化学****算法比较适合应用于机械臂的运动控制，但是，不同类型的强化学****算法在实际使用时还存在着一些问题：
（1）On-policy类强化学****算法的样本效率低下。例如，目前主流的用于连续控制的深度强化学****DRL）：TRPO算法，PPO算法和A3C算法在每执行一步都需要收集新的样本[12]，因此所需的步骤数和样本量会随着任务复杂性增加而增加，即使是相对简单的任务也可能需要数百万个数据收集步骤，而具有高维度的复杂任务可能需要训练一天甚至几天的才能收敛，成本高昂。
（2）对于基于Q-learning（QL）类的强化学****算法来说，提高样本效率，复用先前经验是相对容易的[13]。但是，其离散的状态空间在处理连续控制问题时可能会导致维数灾难（Curse of Dimensionality）。通过连续状态离散化的方式进行机械臂的动作控制，往往稳定性和收敛性都无法保证。
（3）另一类Off-policy算法，如深度确定性策略梯度算法（deep policy gradient， DDPG）[14]，相比QL算法更适合解决连续控制问题，相比PPO等算法也有更高效的样本学****但是，DDPG算法在面对高维任务时，Actor网络与Q网络的相互影响造成了算法的脆弱性和超参数敏感，这严重限制了在现实任务中的适用性，甚至需要依靠精确的建模，才能实现对真实机械臂的有效控制[15]。
针对目前常用算法在用于多轴机械臂控制时存在的一些不足和问题，本文提出了一种基于柔性角色行为评价算法（Soft Actor-Critic Algorithms，SAC）[16]的机械臂控制方法，并且在CoppeliaSim平台上搭建了UR5多轴机械臂的仿真环境，进行多组对比实验予以验证。
2 SAC算法
Soft Actor-Critic Algorithms是一种基于最大化熵理论的无模型深度学****算法，同时具备了Actor-Critic算

基于SAC算法的机械臂控制方法与分析来自淘豆网www.taodocs.com转载请标明出处.