下载此文档

面向云平台的二代测序数据近似去重方法研究.doc


文档分类:通信/电子 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
面向云平台的二代测序数据近似去重方法研究
赵晓永陈晨
北京信息科技大学信息管理学院首都医科大学附属北京地坛医院传染病研究所
X
关注成功!
加关注后您将方便地在我的关注中得到本文献的被引频次变化的通知!
新浪微博
腾讯微博
人人网
开心网
豆瓣网
网易微博
摘    要:
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点, 需要通过云计算进行处理。然而, 云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性, 使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的“重复”测序文件和测序结果中的“重复”内容。重复上传和存储这些重复数据, 不仅消耗网络带宽, 而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征, 并未有效利用测序结果数据相似性特点的问题, 提出一种面向云平台的海量高通量测序数据近似去重方法NPD (Near Probability Deduplication) 。该方法对Fast Q中的序列和质量信息, 使用Sim Hash计算分块指纹, 采用客户端与云平台双布谷过滤器(Cukoo Filter) 对指纹值进行快速存在性检测, 最后由云平台使用近似算法对指纹值近似去重。实验结果表明, NPD方法在保证高效的同时, 大幅提升了去重率, 进而减少了网络流量, 缩短了数据上传时间, 能够支撑海量数据处理, 具有良好的实用价值。
关键词:
高通量测序; 重复数据删除; 近似去重; 布谷过滤器;
作者简介:赵晓永(1981—) , 男, 博士, 研究方向为云存储、生物信息方向;E-mail:******@bistu.;
作者简介:陈晨(1980—) , 男, 副研究员, 主要从事高通量测序与生物信息分析方向的研究。
收稿日期:2017-07-03
基金:国家自然科学基金()
Near de-duplication method of NGS sequence data oriented cloud platform
ZHAO Xiaoyong CHEN Chen
School of Information and Manage, Beijing Information Science & Technology University; Institute of Infectious Diseases, Beijing Ditan Hospital, Capital Medical University;
Abstract:
The next generation sequencing needs to be processed by puting due to its large data volume, complex pipeline and high requirements puting resources. puting approach necessitates that the sequencing data is uploaded to the cloud platform first. The randomness o

面向云平台的二代测序数据近似去重方法研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息