行业新闻

“联邦学习”:打破数据壁垒 保护隐私数据

发布时间:2019-10-22 点击量:
AI正在各个行业掀起渐进式的变革,医疗一直是其中的热门领域,被业界认为有可能尽快实现产业化。

AI+医疗的快速发展,离不开迅速增长的医学大数据规模、快速提升的算力和理论基础的进展。进一步分析,从资本层面来看,AI+医疗有较好的投资盈利预期,受到了资本的追捧;从技术和人才角度来看,医疗AI的研究机构众多,包括科研单位、高校、大型企业、创业企业等,造就了一大批奋战在一线的科研机构,相应的技术和人才水平较高;具体到细分应用,特别是在医学图像识别领域,拥有丰富的技术和设备等资源。
医疗影像面临的数据挑战
AI在医疗产业的发展,最初是数据收集,主要是通过多种工具或设备来收集人体的健康数据,医疗影像是其中之一,也是迄今为止AI在医疗行业落地最为成熟的应用之一。随着医疗信息化和生物技术不断地发展,医疗数据的类型和规模正以前所未有的速度快速增长。

在医疗AI领域,获取高质量的医学影像数据难度较大。一方面来自于医学影像数据前处理和标注所需的投入,占据了开发成本的绝大部分,工作量巨大;其次,随着现代医学影像技术的发展,医学影像数据的产生技术也变得越来越复杂,客观上加大了数据的获取和使用难度;同时,由于医学影像数据绝对的私密性,数据的拥有方采取高度保护措施,也加大了AI研发机构获取数据的难度。

只有获取更多的数据进行训练,AI模型才能更强健。而眼下这些现状,显然有碍于深度学习理论下AI模型的进展。
“联邦学习”——打破数据壁垒,保护隐私数据
日前,在全球高端的医学影像会议MICCAI召开期间,NVIDIA携手伦敦国王学院推出了用于医学影像分析、且具有隐私保护能力的联邦学习系统( federated learning system)。据了解,该实验基于取自BraTS 2018数据集的脑肿瘤分割数据而实施,包含了285位脑肿瘤患者的MRI扫描结果,采用了NVIDIA V100 Tensor Core GPU用于训练与推理。

NVIDIA医疗副总裁Kimberly Powell与NVIDIA资深研究科学家Nicola Rieke介绍了联邦学习系统的技术细节、实施前景及研究背景。


右一:NVIDIA医疗副总裁Kimberly Powell
左一:NVIDIA资深研究科学家Nicola Rieke

联邦学习(federated learning)是一种能够让开发者与各企业机构利用分散在多个位置的训练数据,对中心深度神经网络(DNN)进行训练的学习范式,该方法可以支持各企业机构针对共享模型开展协作,而无需共享任何临床数据。

NVIDIA最新发布的论文中,对这一数据训练方式表述为:“联邦学习在无需共享患者数据的情况下,即可实现协作与分散化的神经网络训练。各节点负责训练其自身的本地模型,并定期提交给参数服务器。该服务器不断累积并聚合各自的贡献,进而创建一个全局模型,分享给所有节点。”


一言蔽之,“联邦学习系统”最大的突破,在于它的运行方式是——模型找数据,而非数据找模型。如下图所示,最左边的“全局AI模型”可以分散到各个医院或研究中心,利用它们本地的数据进行训练,之后再将训练后的模型回传,而数据始终保存在本地。通过各个医院、研究中心等机构不断地训练,“全局AI模型”不断壮大,再分享给各个节点,实现了数据与模型训练的“双赢”。


由于无需上传病人的隐私数据,大大打消了数据拥有方对于隐私数据的顾虑。但是,这一系统是否足够安全?有无被通过“反推”方式破解数据的风险?

Nicola Rieke对<电子发烧友>表示,通过模型反演、设法使数据重现的手段已在研究考量中,因为如果知道底层的运行逻辑,不排除会有一些反推手段。为了提高联邦学习的安全性,研究人员试验了使用ε-差分隐私框架的可行性。该框架是一种正式定义隐私损失的方法,该方法可以借助其强大的隐私保障性来保护患者与机构数据。据Nicola Rieke介绍,相当于完成模型训练之后,加入“噪点”使数据变得模糊,改变了原有数据的颗粒度,使得反推更加困难。


“联邦学习”VS.“集中化数据处理”
Kimberly Powell进一步谈到了联邦学习系统的价值所在。她提到,在当前很多AI的研究或项目中,大量的工作离不开“数据收集”,各个国家都在进行相应的工作。但是涉及跨国或是跨区域的合作,大家几乎不可能共建一个数据池进行分享,因此数据壁垒愈发凸显。这时“联邦学习系统”就能够发挥作用了。

通过深度学习从数据中自动提取知识,再运用“联邦学习”有效聚合各机构从私有数据中本地习得的知识,能够进一步提高深度模型的准确性、稳健性与通用化能力。

与集中化的数据处理方式相比,联邦学习所提供的方法可以在不共享机构数据的情况下实现相当大的分割性能。试验结果显示,隐私保护与受训模型质量之间产生了自然折中。而且,通过使用稀疏向量技术,联邦学习系统可以实现严格隐私保护,且对模型性能仅产生合理的轻微影响。

另外就是集中化的数据处理方式,相当于将数据量增加了一倍。例如1TB 的CT图象,将它集中起来进行训练,需要把这1TB数据进行拷贝再做转接传输,给整个系统增加了额外的数据负担,对于系统的算力、存储、带宽都是更为严峻的考验。

目前什么样的系统能够采用“联邦学习”? Kimberly Powell表示,NVIDIA 的GPU硬件基本上对于每个服务器供应商来说都是可以使用的,入门级的投入1万美金即可。NVIDIA与美国放射科学会已经共同打造了一个参考架构,可以应用到各个医院中,如果仅是试用性的训练,用这个架构的第一层就可以了。如果有相对高层级的需求,可能需要从头去打造全新的算法应用。


Kimberly Powell强调,“联邦学习系统”是目前在医疗健康AI领域的突破性进展,该研究为部署安全联邦学习方面做出了巨大的推动,并将广泛推动数据驱动型精准医学的进步。
崛起的医疗AI,进击的NVIDIA
根据公开数据,到2020年医疗数据量将达40万亿GB,数据生成和共享的速度将迅速增长,其中80%以上的数据为非结构化数据。面对如此迅速增长的医疗数据量,不借助AI的提升很难进行甄别和处理。

Kimberly Powell以2017年获得诺奖的一台记录人体蛋白质数据的机器举例,这台机器可以在原子层面记录人体的蛋白质数据,这种新型的探测技术每天收集超过3T数据,可以用于很多医疗研究领域,例如基因组学等等。在接下来的几年中,它所生成的数据会比Facebook、YouTube的数据总和还要多。想象一下全世界范围之内,所有的医院、供应商所产生的数据。

另一方面,就放射科而言,实际的医生数量与需求之间并不匹配,存在着巨大的人员缺口,在美国这一缺口达到50%。Kimberly Powell称,正因为如此,需要将一些工作实现自动化,降低AI的应用门槛。

她认为,2018年是AI在放射科应用的拐点,除了通过AI大幅降低成本,提升图像质量,真正将医疗工作与AI整合在了一起。例如CT设备通过AI实时算法缩短成像时间,生成更多更安全、准确的实时图像;以及探测颅内出血的设备,可以根据实际情况及时帮助医生根据工作优先级调整工作流程等。

根据亿欧智库的研究显示,国内疾病风险预测、医学影像场景下的公司数量最多,占医疗AI公司总数的一半以上,相关产品相对成熟。


也正是看到了AI在医学影像领域的巨大潜力,NVIDIA不断加大在这一细分领域的投入。今年春天,NVIDIA正式发布了Clara。和CUDA一样,Clara的推出是NVIDIA在GPU易用性方面做出的又一努力。但不同于CUDA,Clara面向医疗领域的垂直细分应用,从软件层面帮助开发者在GPU平台部署计算密集型医疗AI应用程序。


由于标记数据对于构建安全可靠的AI至关重要,但放射科医生无法花费数小时来标记数据集。因此Clara具备辅助注释功能,可以加速结构化数据集的创建,从而在几分钟内完成注释。

此外,Clara还具有迁移学习的功能,能够对已有模型进行调整,从而适应本地变量。它能够使用包含本地人口统计的数据和本地影像设备对深度学习算法进行定制,且无需移动或共享患者数据。因此,医生可为自己的患者创建模型,而无需使用10倍的数据量从头开始。

对于初创公司来说,Clara这种可以在官网免费下载的SDK很受欢迎。NVIDIA也在增加更多的加速引擎,帮助他们提升效率,加速方案的部署。此外,Clara也面向针对医疗设备公司、医院等企业客户。

截至目前,这一平台的开发者数量已经增长了4倍。据了解,最新发布的“联邦学习系统” 也会整合到Clara工具平台中。而不论是联邦学习系统还是Clara,都是NVIDIA使AI在医疗行业更为落地的铺垫。作为底层技术赋能者,NVIDIA正在通过软件+硬件的方式,雄心勃勃地进发着。

Kimberly Powell表示,得益于之前在消费级AI的良好基础,NVIDIA能够在医疗AI领域提供面向更复杂应用的开发工具。下一步,针对自动化AI将进行更为深入的研究和投入。



上一篇:成都:电子信息产业生态链将日趋完善

下一篇:瀑布屏:完成了美的使命

京ICP备11024606号
销售热线: 400-650-6618 010-82577757
版权所有 © 北京深万科技有限公司