下载此文档

基于SAC算法的机械臂控制方法与分析.docx


文档分类:汽车/机械/制造 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
基于SAC算法的机械臂控制方法与分析
 
 
王骏超
摘 要:机械臂作为一种常见的自动化设备,关于其控制算法的研究,一直是相关领域的热点。本文结合目前比较热门的人工智能理论,将强化学****方法引入到机械臂控制中,提出一种基于Soft Actor-Critic Algorithms算法的控制策略,以更好地解决三维空间下多轴机械臂的轨迹规划问题。利于CoppeliaSim平台,搭建仿真环境,选择UR5机械臂作为实验对象,进行了多组对比实验。结果表明:基于策略熵最大化的SAC算法,提高了训练样本利用率,保证了学****结果的最优。在用于三维空间中多轴机械臂控制任务时,不仅可以克服传统控制算法存在的模型依赖性高,规划精度低的不足,并且相比一般强化学****算法,具有更快的学****效率和更高的稳定性,轨迹也更为平滑,具有很好的实用价值。
关键词:机械臂控制;SAC算法;轨迹规划;强化学****br/>:TP242  :A  :1673-260X(2020)10-0033-07
1 引言
机械臂是一种最常见的也是最早出现的自动化设备,关于其控制算法的研究一直是业内关注的焦点[1,2]。目前比较常见的机械臂轨迹规划方法主要包括A*算法、人工势场法、快速扩展随机树算法等。A*算法是一种典型的启发式搜索(Heuristically Search),一直受到广泛的研究[3],但是A*算法的估价函数构造往往需要人工经验尝试,影响了规划的稳定性和精度。人工势场法具有良好的实时性[4],但会出现局部最优或振荡不收敛的情况,在环境比较复杂或者机械臂自由度较高时,不能保证规划的稳定性和可靠性。快速扩展随机树法理论简单且容易实现[5],当参数设置合理时,可有效避免出现局部最小值的情况。但是所得到的轨迹曲线比较粗糙,往往并不是最优[6],算法的效率较低,并且重复性较差,控制效果不稳定
[7]。因此,传统的轨迹规划算法在解决机械臂控制问题时均存在着效率低、稳定性差、模型依赖性高的缺陷。
将强化学****算法理论与机械臂运动轨迹规划控制问题相结合,可以有效弥补和改善传统算法存在的不足。并且,随着研究的深入也出现了一些成功的案例,例如:Peters J等人在2006年利用强化学****方法使7自由度的SARCOS Master机械臂完成挥棒击球的任务[8];2011年,Durrant-Whyte H利用一个桌面级机械臂和深度摄像头[9],通过强化学****的方法使其完成了空间积木块的堆叠任务;Mulling K和Kober J等人在2013年以学****打乒乓球为例,介绍了一种机器人通过与人的物理交互来学****的新框架[10];Gu S等人在2017年提出一种基于深度Q函数离线训练策略的深度强化学****算法,通过多台机器人并行学****来训练真实的物理机器人执行复杂的三维操作任务[11]。虽然强化学****算法比较适合应用于机械臂的运动控制,但是,不同类型的强化学****算法在实际使用时还存在着一些问题:
(1)On-policy类强化学****算法的样本效率低下。例如,目前主流的用于连续控制的深度强化学****DRL):TRPO算法,PPO算法和A3C算法在每执行一步都需要收集新的样本[12],因此所需的步骤数和样本量会随着任务复杂性增加而增加,即使是相对简单的任务也可能需要数百万个数据收集步骤,而具有高维度的复杂任务可能需要训练一天甚至几天的才能收敛,成本高昂。
(2)对于基于Q-learning(QL)类的强化学****算法来说,提高样本效率,复用先前经验是相对容易的[13]。但是,其离散的状态空间在处理连续控制问题时可能会导致维数灾难(Curse of Dimensionality)。通过连续状态离散化的方式进行机械臂的动作控制,往往稳定性和收敛性都无法保证。
(3)另一类Off-policy算法,如深度确定性策略梯度算法(deep policy gradient, DDPG)[14],相比QL算法更适合解决连续控制问题,相比PPO等算法也有更高效的样本学****但是,DDPG算法在面对高维任务时,Actor网络与Q网络的相互影响造成了算法的脆弱性和超参数敏感,这严重限制了在现实任务中的适用性,甚至需要依靠精确的建模,才能实现对真实机械臂的有效控制[15]。
针对目前常用算法在用于多轴机械臂控制时存在的一些不足和问题,本文提出了一种基于柔性角色行为评价算法(Soft Actor-Critic Algorithms,SAC)[16]的机械臂控制方法,并且在CoppeliaSim平台上搭建了UR5多轴机械臂的仿真环境,进行多组对比实验予以验证。
2 SAC算法
Soft Actor-Critic Algorithms是一种基于最大化熵理论的无模型深度学****算法,同时具备了Actor-Critic算

基于SAC算法的机械臂控制方法与分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小207 KB
  • 时间2022-01-06