图像Laplace变换在异构多核工程科学计算加速协处理器上的实现.doc图像Laplace变换在异构多核工程科学计算加速协处理器上的实现摘要:基于自主研发的新颖异构多核工程科学计算加速协处理器(ESCA)体系结构,实现了图像Laplace变换算法。针对ESCA架构特点,采用子字并行计算和访存延迟隐藏等机制,进行了一系列并行算法优化,并在四核ESCA处理器原型上对图像Laplace变换算法的进行了性能评测。实验结果表明,对于计算密集型计算任务,ESCA处理器具有良好的计算加速效果。关键词:异构多核;协处理器;计算密集型;Laplace变换;并行计算中图分类号:TN492文献标志码:AImplementationofLaplacetransformonheterogeneousmulti-eleratorcoprocessorAbstract:elerator(ESCA)isaheterogeneousmulti-putation-,andtheperformanceofLaplacetransformonthequad--:heterogeneousmulticore;pute-intensive;Laplacetransform;puting0引言高性能计算(puting,HPC)广泛应用于金融、制药、交通、银行、证券、医疗、教育以及科学计算及信息化服务筹领域[1],已成为衡量一个国家核心竞争力的关键指标。近年來受应用需求和系统实现技术的驱动,高性能计算机的核心评价指标已经从高性能计算转向高效能计算⑵,即每瓦特能耗下所能实现的性能(Performance-per-Watt,Flops/W)。"主处理器+协处理器”的混合计算体系结构[3-4]以其独特的效能优势[5],已经成为高性能计算机系统体系结构研究的主要趋势之一。同时,片上多核处理器作为摩尔定律的一种新的延续形式,已经成为处理器性能持续增长的必然途径[6]。对此,文献[7-8]面向科学计算、数字信号处理和多媒体处理等科学与工程计算应用领域,提出了一种自主研发的异构多核处理器——工程科学计算加速协处理器(elerator,ESCA)体系结构。ESCA处理器是一个具有强大计算性能的协处理器,采用经典存储器接口方式,与商用主流的通用微处理器(如IntelCPU、IBMPowerPC等)或嵌入式微处理器(如ARM、SPARC等)有效协同,实现基于混合计算体系结构的高性能计算机系统。其屮,主处理器上运行操作系统,主要负责执行系统任务和控制任务(如响应中断、操作外设等),并根据应用特点将并行计算任务分配到协处理器计算节点上;ESCA处理器负责对具体的计算任务进行加速。这种“主处理器加协处理器”的混合异构多核架构可以提供强大的计算能力,广泛应用于计算密集型的科学与工程计算应用领域图像信息处理是一种典型的计算密集型应用,而Laplace变换在图像处理中的应用非常广泛。本文深入分析了ESCA体系结构的特点,基于ESCA架构实现了图像Laplace变换算法,并进行了一系列并行算法优化。实验结果表明,对于计算密集型计算任务,ESCA处理器具有良好的计算加速效果。1ESCA体系结构ESCA处理器主要包括计算阵列、控制内核、指令高速缓存、总线接口单元以及直接存储访问引擎几大部分,体系架构如图1所示。其中,计算阵列集成多个计算内核(ProcessingElement,PE),以单指令多数据流(SingleInstructionMultipleData,SIMD)模式并行执彳亍以提供高计算能力;控制内核负责ESCA处理器与外部的通信,同时取指令发送给PE计算阵列进行运算操作,控制程序的正确执行并收集程序执行过程中的各种状态(异常、中断等)。指令高速缓存用于存储近期可能用到的ESCA计算任务程序,为控制内核提供快速的取指响应。总线接口单元则主耍用于进行片内外数据通信,匹配外部LocalBus接口时序和LocalMemory接口时序,控制数据通路,根据不同的位宽比例进行数据拆包和打包工作,并且产生相应的控制信号。控制内核是ESCA处理器的控制中枢,它包含多个控制状态寄存器。这些控制状态寄存器参与全局编址,可供Host访问和查询。而ESCA处理器芯片根据这些控制状态寄存器的设置执行相关操作,如指令高速缓存的预取、计算任务的开始执行、调试模式、DMA传输配置等。此外,控
图像Laplace变换在异构多核工程科学计算加速协处理器上的实现 来自淘豆网www.taodocs.com转载请标明出处.