我的编程空间,编程开发者的网络收藏夹
学习永远不晚

2015 年,我和华大基因立下一个小目标……

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

2015 年,我和华大基因立下一个小目标……

导读:2015 年,阿里云和华大基因立下一个目标:到 2020 年,要在 24 小时完成个人全基因组测序。这在当时是一个几乎被认为不可能的挑战。 而在 2020 年刚开始的第 17 天,我们就实现了这个目标!并且把个人全基因组测序分析做到只需要 15 分钟,不到一顿饭的功夫。

云端实现大规模弹性调度计算

2015 年,我和华大基因立下一个小目标……

图 1 - WGS 分析过程示意图

基因计算所面临的挑战不同于常规计算,大数据生信分析平台需要具备 PB 级的数据处理能力:存储与压缩、清理及管理、低成本保存的能力;快速、安全的云端分发共享;基因数据的安全隐私保护、大规模数据挖掘;按需调度和弹性扩容等。

此次方案由华大 DNBSEQ 自主测序仪、BGI Online 混合云架构、阿里云容器服务 ACK/AGS 基因服务以及赛乐基因 GPU 加速算法的深度融合而成。其中,华大基因联合阿里云的整体技术架构为云原生容器混合云,实现云上云下资源一体,跨地域集群统一管理。凭借云端的自动伸缩特性,实现大规模弹性调度计算。

在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据 (FASTQ文件) 上传至 OSS,以及授权 Bucket 给 AGS 服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。

这套端到端解决方案,无缝衔接测序平台和基因云平台,全面支持包括 DNBSEQ 系列测序仪在内的多种测序平台,可按需定制分析流程,交付灵活性极高。

速度更快,精度更高,成本更低

相比同类产品,它在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,在 2020 年,新的 WGS 交付方案将会助力基因科研与临床检测再上一个新台阶。

经过实际测试,整套方案在 15 分钟内完成了 8 组 30X WGS 样本二级分析处理。在保证精度的前提下,实现 15 分钟对 7200 亿碱基拼装、排序、去重、变异检测,完成基因检测全流程120倍加速。且经过 NA12878 测试数据集与金标准 VCF 比较,二级分析的精度高于或等于 BWA-0.7.17/GATK 4.1.3 的数据产出,SNP 精度到达 99.80%!

2015 年,我和华大基因立下一个小目标……

图 2 - 实测 30X WGS N12878 数据加速效果

2015 年,我和华大基因立下一个小目标……

图 3 - 30X WGS 软件加速一致性
同时,阿里云 ACK/AGS 提供云上 PaaS 加速能力,以混合云方式协助华大基因完成自主测序仪大批量下机数据分析的近实时交付,可有效降低分析计算成本,缩短该环节交付周期。

加速解码生命进程

此前,线下进行单个样本的 WGS 分析通常需要 70+ 小时;2016 年底,BGI Online(国际版)实现 17 小时完成 100 个 WGS 分析;2017 年底,时间降至 120 分钟;到如今携手阿里云,创下 15 分钟完成 1 个 WGS 的新纪录,BGI Online 再次刷新了全基因组分析的速度极限。

随着精准医学人群队列项目的陆续启动,我国自主可控的基因测序与分析平台显得愈发重要。BGI Online 将在未来继续完善平台功能,为用户提供完整、全面、友好的功能体验,使生物信息领域的研究更简单高效。

解码未知,丈量生命。科技的每一小步,都会成为人类前行的一大步。华大基因及 BGI Online 将继续携手合作伙伴,共同为基因事业贡献力量。

注:人类全基因组测序(Whole Genome Sequencing,简称WGS)是利用高通量测序技术对人类不同个体或群体进行全基因组测序,并进行生物信息分析的方法。癌症和遗传疾病的深度解析往往需要对大量样本进行 WGS 测序与分析,而且对 WGS 数据的挖掘还能发现非常多极具价值的遗传多样性信息。一个人类全基因组有 30 亿碱基,一个 30X 的 WGS 测序数据量大约在 100G。

云原生实践峰会即将开幕

2015 年,我和华大基因立下一个小目标……

“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的技术圈。”

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

2015 年,我和华大基因立下一个小目标……

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

2015 年,我和华大基因立下一个小目标……

导读:2015 年,阿里云和华大基因立下一个目标:到 2020 年,要在 24 小时完成个人全基因组测序。这在当时是一个几乎被认为不可能的挑战。 而在 2020 年刚开始的第 17 天,我们就实现了这个目标!并且把个人全基因组测序分析做到
2023-06-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录