当前位置:瑜伽垫品牌健康人工智能时代医学大数据库的重要性
人工智能时代医学大数据库的重要性
2022-10-30

人工智能时代,医疗大数据方面也有所更新,医疗数据库如何为行业提供更好服务,值得探究。6月3日下午,2017北京常春藤医学高端人才联盟健康产业论坛火热进行中。本次论坛的议题是“医疗大数据的现在和未来”,中国临床肿瘤学会(CSCO)临床数据专业委员会委员、新屿信息科技(上海)有限公司CEO王学兴先生在论坛上对科研数据中心建设进行讲解。

以下为发言原文(有删减):

发言人:王学兴中国临床肿瘤学会[CSCO]临床数据专业委员会委员、新屿信息科技(上海)有限公司CEO

首先非常感谢有这样一个机会。我曾经也是一名外科医生,后来一直专注于做肿瘤大数据的应用,所以今天借这个机会,从科室的角度,或者是从临床医生的角度,分享科研数据中心建设的心得。

早期我们用一套数据库的时候,更多的功能是用在做搜索,但是在精准医疗的背景下,我们怎么把这个数据库的功能再扩大一下,成为做科研和探索的工具呢?在精准医学或者大数据任务的背景下,对医生来讲,它的财富除了知识或者技能以外,那么显然最重要的就是数据。以前我也是外科医生出身,所以经常觉得,手术水平很高,觉得自己就可以独行天下。但是在今天人工智能的环境下,数据可能是比技能更重要的东西。那么我们在整个行医的生涯中,其实除了去学习知识技能以外,也应该从今天开始去积累数据,这才是我们最宝贵的财富。

整个医疗数据的分析维度,可以简单地分为四个层次,第一国家或者政府在讲的行业大数据,从卫计委的大数据去看整个国家疾病的发病率等,这是一个传统意义上的大数据。而我们从一个群体的数据去分析,更多的是偏向于科研分析。还有站在个人的基础上,对一个人进行医疗数据的个体化项目,对他提供更精准的治疗指导意见。第四在微观层面上,随着现在GS、基因数据的出现,微观层面进行数据分析。其实明码生物科技首席技术官孙宏业介绍的平台无非是把临床数据和基因大数据以及一些环境数据、基因数据整合一起,做管理分析。

我会着重于临床大数据的分享,因为临床数据是每一个病人最重要的数据来源之一,很多资料写在系统里面,或者最早的时候写在病例里面,这些数据在今天仍然没有被最大化的利用起来,这本身就是一个宝库。另外涉及到患者数据的整合时,我们把临床大数据和基因大数据以及一些环境大数据做数据分析。把所有的数据整合在一起,这样的数据产生才有价值。可能目前的信息是被割裂的,也是我们常说的在医疗行业信息孤岛现象非常严重,那首先我们也要去解决这样的问题,从临床数据的角度出发,进行统一的编码存储。如果信息数据只是临时的堆在一起,编码不统一的话,那么这些数据的利用价值就大大降低了。从临床出身的人往往会习惯性的用临床思维来思考数据,那么怎么样用数据思维来看待手里的每一份数据呢?第一,我想给大家讲的数据及价值。

数据是最重要的带有价值的资产,做过科研的人都有对于科研数据处理的困惑,“一题一库”即做一个临床研究课题的时候,都会建立一个数据库,但如果要做多个课题,就要做多个库,尤其像肿瘤,分类标注。从做研究的流程来讲,医生都知道病例是一手数据源,然后把数据进行统计分析,最终完成一篇篇的论文或者研究成果。

{page}

从目前中国的现状来看,临床的病例基本上记录在ERP或者S系统里,甚至少量的医院还记录在纸质的病例上,这些数据结构我们把它称为是半结构化的病例数据。比如说住院病历首页只看到处方的遗嘱系统,化验系统都已经做到了结构化,但是临床研究比较重要的病史病重程度,以及药物的不良反应等都习惯性的记录在病史中。我们需要对它进行一个重新的处理,而且病例的内容模版化最好的Ctrl+v、Ctrl+c的操作,现在也有很多的错误发现,有些男性病例里面还写着子宫附件,女性病例里还写着前列腺检查无异常,这都是Ctrl+v、Ctrl+c出来的,现在给这种黑色系统数据标准化,国家也在不断的强化。

对于数据存储的现状来说,大家的格式就更多样。数据质量差异会非常大,而且目前临床上做科研数据整理的管理人员,我们观察到流动性还是非常大的,所以导致往往一个科室科研性的数据库,数据处理差异也很大。还有一个数据可重复利用度往往的也不是特别高,最后到知识专业环节有些统计方法,或者说有些医生为了写文章往往会有选择性的去相信一些病例,得出一个P<0.01差异,然后就写在文章上,没意识到病已经作了选择性的筛选了。还有第三块也会鱼龙混杂,这是我们在数据处理的临床研究过程中中国存在的一些现象。

实际上要建一个数据库要去考虑两个大的因素,第一怎么样去解决临床科研要求的数据标准。另外怎么样满足我自身领域里面的研究领域里的专业标准和专业的术语,把这两个结合起来,一个是数据标准,一个是专业标准,结合起来形成的这个数据模型,这个数据库的结构就是能满足我们未来科研临床研究的科研数据的标准模型,这样的话,能满足每一个领域里的科研,同时也能满足监管成员的一些要求。这样的话我们除了做一些临床实验以外,这个库也会支持我们自己的非注册类的以及观察性的研究,增值试点研究都可以来实现。而不需要今天一个课题一个库。

我们要创造数据的话尽量带数据源,如果我们还是习惯用CRF表的方式去存储数据的话,其实你已经在使用假设条件了,那么你的研究方向是什么?所以如果要进行某一个增值试点研究的话,尽量不要带一些假设条件,只要把这个病例的数据原原本本拆开放在那里就可以了。

另外数据是用来积累自己的科研财富的。我想分析一下大数据的一些特点,第一个数据源比较大,而且在持续增长,因为病人会源源不断的进来,第二个是病例的整体结构是比较复杂,而且包含了很多的语意,每一份病例是医生受过专业训练之后书写的,它不是像我们日常生活的自然语言,它的文字之间有很多语意在里面,很多的医学逻辑在里面。第三个特点是个体差异比较大,第四个数据定义和数据标准变化很快。刚才我谈的一些医学标准每年都在变,第五个信息不同现象比较严重,现在医院跟医院之间的信息共享还是比较难的,如果说对这些数据进行处理的话,现在基本上是XML的格式文档,如果对这些数据进行处理最好的整理方法,当然是人工智能语音识别加数据化安全,但是这样做在今天的计算代价还是比较高的。第二个如果我们去做一个结构化的关系性数据库,它能满足我们预定好的或者日常的研究需求,但是使用结构化数据存储会把大量的语音关系丢掉,因为计算机并不知道两个词之间的是什么关系。

最后跟大家分享大数据的隐私和安全问题。数据的一个特性是有去无回的,因为它可以零成本的复制,你再也拿不回来。我可以拿到数据做任何其他科研的工作,所以我们跟很多专家也包括做一些或者技术上来解决这个问题,我们怎么样在保护数据和医学科研之间达到一个平衡,前提就是数据的分级分层,我们有一个数据分级分层的框架,现在也正在研发中,我们想在今年九月份公布这样一个标准化的体系和分享的机制。就是把每一份病人的数据通过人工智能拆成隐私信息、描述性事件和分类分解的数据分解出去,我们称之为PBCI模型。不同的数据层级你可以去规范不同的分享和协作的权限。我举一个例子,很多人担忧数据共享出去有去无回,其实他担忧的是第三层数据,这份基础数据分享出去以后,我就没办法掌控了,隐私系统是不管谁都不能共享的不能分享的,基础性描述性的事件其实是产生其他任何分类分级描述性事件的源头,都想把这份数据传到自己手里,我们可以从分析性数据的共享开始,或者分类分级的数据共享开始,如果双方建立足够的信任,也可以把描述性事件也做分享,这些分类分级的这样的分享,另外一个利益的分享机制,我们当中也是这个建议,谁发起了一个课题,他就是通信作者,谁贡献了病例被采纳的多就是第一作者依次排序。当初在讨论中很多人都比较认同这个机制,因为相对比较公平的兼顾大家的利益,另外一个我们其实也在跟国家信息部沟通,做到不能多次的利用,来约束大家对这些共享数据的使用范围。

瑜伽垫品牌    手机版    网站地图    QQ号:57780188