使用大数据消灭肿瘤细胞
编程小独行侠
2024-04-23 22:56
欢迎大家阅读本文章,本文章是一篇使用大数据消灭肿瘤细胞的文章。这篇文章会给大家带来一些关于肿瘤细胞和大数据的相关知识详解,希望本篇文章能帮助到你,对你有所收获,让我们开始学习吧,编程学习网提醒您:大家仔细阅读文章。编程学习网教育提醒您:要认真好好阅读哦~~
并非所有的突变都同等重要。我们希望找到那些促进肿瘤细胞增殖的突变。这样一来,就可以把这些突变作为攻击目标,就有可能消灭肿瘤细胞。
添加进数据库的重要突变越多,该数据库就会变得越有用。我们的数据库正在以非常快的速度扩大。正在考虑向更多的癌症研究人士开放这座数据库,实现众包。
原文翻译:
不可否认,癌症极为复杂,单个肿瘤所含细胞数量可以超过1,000亿个,每个细胞都能各自突变。这种疾病时刻都在改变、进化和适应。为了更好地了解癌症的进化过程,临床医生和研究人员需要获取肿瘤的基因构成“快照”。越频繁地获取此类快照,就越容易弄清癌症的进化过程。对快照的分析会产生大量的信息。威尔康奈尔医学院(Weill Cornell Medicine)的奥利维尔·埃利门托(Olivier Elemento)希望从这些信息中,找出有助于预防、诊断、治疗和彻底治愈癌症的模式。
为此,埃利门托利用了大数据分析和高性能计算的力量。“新技术为我的研究提供了助力,为我们带来了探索癌症的新方式。”埃利门托说。他最初学的是工程类专业,后来在读研究生时转修计算生物学,因为他意识到,癌症研究拥有巨大的计算需求。
现在,埃利门托的实验室致力于识别癌症基因组中的重要突变,了解癌症基因组的进化过程,发现新的抗癌药物。
患者样本、大数据分析和机器学习
埃利门托的实验室利用癌症基因组测序来指导对患者的诊断和治疗,这大大推动了他们的研究。
癌症基因组测序会产生大量数据,因为被测序的DNA实在太多。研究人员不得不先把癌症基因组分解成长度为100个碱基对的片段,接着对数亿个这样的片段进行测序。最后,由定制软件和超级计算机把所有的数据重新汇总在一起。
但基因组测序本身不会提供任何信息,研究人员仍需要自己去识别基因组中的重要突变。
“并非所有的突变都同等重要。”埃利门托说,“我们希望找到那些促进肿瘤细胞增殖的突变。这样一来,就可以把这些突变作为攻击目标,就有可能消灭肿瘤细胞。”
这时便轮到患者样本、大数据分析和机器学习上场了。研究人员进行化验,测算癌症基因组中各种突变的影响。一个方法是检查转录组(被表达的全套基因)的变化。化验会提供大量的额外数据,这些数据会接着与DNA测序数据结合在一起。
“人类大约拥有2.5万个基因,这些基因的表达水平大不相同,而疾病会干扰表达水平。”埃利门托说,“人类正常细胞的表达模式相对保守,我们必须利用精密的模式和机器学习算法,识别可能与疾病有关的模式。”
甲状腺癌的诊断模型
在识别出特定癌症的重要模式之后,研究人员便可以利用这些信息,建立癌症诊断和治疗模型。
埃利门托的实验室已经建立了一套机器学习模型,通过分析特定基因的表达水平,来预测患者是否患有甲状腺癌。甲状腺癌通常表现为甲状腺结节,长在脖子下方,约有5%至15%的甲状腺结节是恶性的。通过对结节的基因检测,该模型预测结节是恶性还是良性的准确率超过90%,高于标准的诊断工具。相关研究结果已刊载在2012年的(Clinical Cancer Research)上。
“唯一一种能够做到如此高准确率的方法,就是利用机器学习算法,以非线性的方式整合表达水平的相关信息。”埃利门托说。该模型及相关技术现已被注册为该公司专利,正在开展商用测试。
癌症基因组突变数据库提供了“肿瘤身份证”
除了建立模型以外,埃利门托的实验室还根据他们自己的数据和癌症研究界的发现,打造癌症基因组重要突变数据库。这是一个数据密集型的项目,需要扫描癌症文献,不断进行数据库维护。但潜在的回报十分巨大。
埃利门托的实验室可向临床医生提供报告,展示他口中的“肿瘤身份证”。通过这个数据库,他们能迅速识别某个肿瘤的哪些突变最为重要,并把这些信息和相关说明传达给临床医生。
添加进数据库的重要突变越多,该数据库就会变得越有用。“我们的数据库正在以非常快的速度扩大。”埃利门托说,“我们正在考虑向更多的癌症研究人士开放这座数据库,实现众包。”他说,根据他设想的理想图景,将有很多癌症研究人员和临床医生能够更新和访问这座数据库,只是管理权限各有不同。鉴于该领域的发展如此迅猛,癌症研究人士通过互助所能发挥出的力量,让他感到振奋不已的。
通过合作来了解为什么有些患者会复发,而其他患者不会
合作在埃利门托的研究中发挥了重要作用,他已经与威尔康奈尔医学院和其他机构的很多研究人员和临床医生建立了联系。
“我们和临床医生始终保持着联系。对一名科学家而言,这非常好,因为能得到很多反馈。”他说,“这很有意义,因为大数据研究拥有转化为实际治疗的巨大潜力。”
在美国国家癌症研究所(National Cancer Institute)的资助下,识别和验证淋巴瘤患者病情复发的生物标记。在接受化疗的淋巴瘤患者中,大约40%的人先是出现肿瘤缩小,但最后又会复发。埃利门托和塔姆将努力弄清楚为什么有些患者会复发,而其他患者不会。
在这个研究项目中,埃利门托的工作涉及到外显子测序、转录组测序和淋巴瘤DNA甲基化图谱数据的计算分析。目标是识别出淋巴瘤复发的生物标记。完成识别后,便可利用这些信息建立模型,预测复发的可能性。在2015年发表(Nature Communications)的一篇论文中,已经能够利用DNA甲基化图谱,识别出有望预示淋巴瘤复发机率的生物标记。
整合多来源数据,完善个性化治疗
得益于新的技术,癌症研究和治疗的未来变得日益光明。埃利门托说,他希望整合从测序基因组到健康状况追踪的多个数据来源,从而实现更加个性化的癌症治疗。
“核心思想就是整合信息,为患者提供更好的个性化治疗。”埃利门托说,“整合基因组信息、表型信息和其他信息,从而知道应该使用什么药物和如何使用那些药物。”
癌症研究无疑充满挑战性,因为它涉及到大量数据的处理和识别。但这正是埃利门托及其同事的专长,也是该领域最激动人心的地方。埃利门托说:“全靠有了这项技术,让我们有很大希望能在今后更好地认识和治疗癌症。”
小知识:
容量问题
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。
与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB的持续吞吐能力,非常适用于大数据分析。
延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。
此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。
为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。
安全问题
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。
虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。
总结
大家都会了呢~相信大家对肿瘤细胞也有些了解了呢~也一定知道了大数据的相关知识的详细介绍,要是您还有什么问题,编程学习网平台,随时为您服务,关于更多的知识,后面还有很多关于类似的文章,期待大家的到来。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341