中科院陈润生院士: 精准医疗数据处理中的挑战
|
但现在国际上开展微生物组基因计划,这个时候我们知道人不仅仅是自己生活,如果考虑他的健康的话也要考虑跟人一起生活的微生物,那么微生物的遗传密码现在估计是人的一百倍,如果研究一个广义的人,研究人联同微生物的人,一个人的测序要增加两个数量级。但这样一个数据从数据源来讲不是很好的,它的噪声比较好,因此性噪比比较低,另外有比较多的缺失值。因此从数据源来讲是增速极快,数据质量不高,含有缺失值的数据,这样在数据挖掘当中存在着第一个困难,就是数据源的困难。 样品量少。从样品来看,我们总需要样品,比如我们研究肝癌,我们需要肝癌的病人,大家知道针对某一个特殊疾病搜集样品是特别困难的,往往对特定分型的肿瘤,如果搜集两三百个样品已经很不错了,大家知道我们整个的数学体系需要建模的体系往往自变量是成百上千甚至上万的,这种情况下如果我们只能取几百个样品的话,当然我们的边界条件不足以固定内部的自变量数在这种情况下,当然我们的解就不是收敛(音),这将是存在的第二个问题。 就是由于样品搜集的困难,很多条件下我们搜集的样品不足以固定体系内部自变量的变化,这样情况下有两个途径,一是加大样品,比如为什么美国要测一百万人的遗产密码,我们中国的精准医学计划也要测一百万人,就是说我的体系测样本量远远大于体系覆盖的自变量,当然可以得到有利的收敛(音)的结果,但这往往是政府的行为,我们自己的研究组是不可能做这件事的,要有巨大花费。这种情况下当然就要考虑数学建模,把我们的系统变成子系统,使得外界的边界条件和内部自变量能匹配,这就是所谓在大数据处理上,对于组学数据所需要的非常突出的数学分析当中的问题。 有效事件频率低。不仅仅样品得来不易,而样品的分子基础也是各种各样的,所以会带来更多的样品需求层次的问题。因此这就会导致一个非常重要的所谓精准医学当中的科学哲学问题,什么是共同疾病的共同变化,什么是共同疾病的特异性变化,时间关系我不能在这里更多讨论了。 ? 上述讲的都是个别基因的变化,但每个基因并不是独立工作的,往往是形成网络,所以我们面对进一步的所谓功能分析的问题,精准医学的问题是复杂网络的问题。大家知道,在座的都是数学家,我们知道这个生物网络是动态的,是有向的,是每个元件做到另外一个元件是定向的;元件不是单一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非线性的,对这样一个动态、有向,不同元件组成的这样一个东西,当然是复杂的。 除了这个之外,大家知道我们不仅仅用组学数据还用其它影像学的数据,比如做个核磁、CT这样的数据如何处理,最后是超出学界的问题,如何在全中国的范围内实现数据的有效共享。我们知道现在每个医院里都有数据,如果我们不能在全局上面进行数据共享的话,我们就是在大数据时代做小数据的工作,将来就失掉了大数据的背景和它的意义。 所以看到在数据分享当中依然存在非常艰难的问题,我后面说的比较粗糙,只不过就精准医学的几个概念和大家进行交流,我想精准医学是一个重要的值得大家关注的方向,但由于各种原因,需要我们克服困难,精准医学才刚刚起步。但这些困难恰恰也是我们的机遇,抓住这些机遇,有机会做突出的原创性的重要的工作。 感谢主办方提供速记及现场照片 编辑 | 陈颖
??
◆?◆?◆
凯文·凯利最新演讲:预测未来非常困难 但未来技术可以预测
(编辑:安卓应用网_ASP源码网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


