基于深度学习的癌症检测系统,肺癌检出率超过医生
近年,从图像中识别出对象物的“图像识别技术”的性能借助“深度学习”得以迅速提高。总部位于美国旧金山的新兴企业Enlitic将深度学习运用到了癌症等恶性肿瘤的检测中。该公司开发的系统的癌症检出率高于放射技师。
深度学习是使用模拟人脑结构的“深度神经网络”的一种机器学习方法,也可用于语音识别及自然语音处理等,但取得显著成果的要数图像识别领域。
测试图像识别技术性能的竞赛中,采用图像数据库“ImageNet”的“ILSVRC”(ImageNet大规模视觉识别挑战赛)最为有名。在谷歌、英特尔、高通、腾讯等知名IT企业参加的2015年的ILSVRC中,微软研究院获胜。此次竞赛的测试内容是能否对1000种图片进行准确分类,微软的分类错误率只有3.6%。
过去几届竞赛的分类错误率最小值方面,2014年为7.4%,2013年为11.1%,2012年为15.3%。在这项赛事中,采用深度学习的队伍获胜是在2012年。当时,15.3%的分类错误率已低得“让人震惊”。仅仅3年之后,获胜的微软研究院就提出,基于深度学习的图像识别技术的识别精度能够超过人类(相关博客)。
不过,Enlitic公司的数据分析师Rewon Child(图1)表示,“ImageNet的竞赛只是辨认纵224像素×横224像素的图片上的物体是猫还是狗,这个任务并不难”。他还指出,“我们正在挑战更难的图像识别”。
找出只有“3像素×3像素”的恶性肿瘤
Enlitic要挑战的更难的图像识别是:从X光、CT扫描、超声波检查、MRI等的图像中找出癌症等恶性肿瘤。Child解释说:“X光照片的分辨率为纵3000像素×横2000像素。其中的恶性肿瘤的尺寸为纵3像素×横3像素左右。从非常大的图像上判断一个很小的阴影状物体是不是恶性肿瘤,是非常难的任务”。
从X光照片及CT扫描图像中找出恶性肿瘤的图像识别软件是利用深度学习的方法之一“Convolutional Neural Network(ConvNet,卷积神经网络)”开发的。ConvNet对放射技师检查过有无恶性肿瘤及肿瘤位置等的大量医疗图像数据进行机器学习,自动总结出代表恶性肿瘤形状等的“特征”以及重视哪些特征能够判断有无恶性肿瘤等“模式”。ConvNet将找出的模式应用于新的医疗图像,便可知道图像中是否存在恶性肿瘤。
据Enlitic介绍,该公司开发的恶性肿瘤检测系统的精度超过放射技师。Enlitic使用肺癌相关图像数据库“LIDC(Lung Image Database Consortium)”和“NLST(National Lung Screening Trial)”进行了验证,结果发现,该公司开发的系统的肺癌检出精度比一名放射技师检查肺癌的精度高5成以上。
Enlitic将向放射技师提供恶性肿瘤检出系统(图2)。在美国,放射技师受雇于医疗图像诊断服务公司和医疗机构,这些企业和机构将成为Enlitic公司的客户。2015年10月,澳大利亚的医疗图像诊断服务公司Capitol Health宣布采用Enlitic的系统。这是Enlitic公司的系统第一次被采用。同时,Capitol Health对Enlitic出资1000万美元。
Child介绍说,“放射技师诊断1名患者的CT扫描图像需要10~20分钟,写诊断报告需要10分钟左右。而如果采用本公司的系统,可以使CT扫描图像的诊断时间减半”。他还预测道,“虽说采用图像识别技术就可以判断有无恶性肿瘤,但鉴于政府规定等,医疗机构不可能不用放射技师。但是,如果放射技师的工作效率增加到原来的2倍,发展中国家的患者就能更方便地使用CT扫描了”。
医疗外行人开发的出色的应用
关于Enlitic公司,笔者非常感兴趣的是该公司的成员。据Child介绍,该公司的数据分析师都是没有医疗工作经历的人。Child本人是在美国耶鲁大学专修的政治学,学习了使用统计学等计量方法分析社会的“计量社会科学”。
该公司的数据分析师全是从“Kaggle”网站招聘的。Kaggle是给全球的数据分析师提出数据分析相关课题,并比较研究成果的“数据预测竞赛”网站。课题均设有奖金,数据分析师解决课题便可获得奖金。
在Kaggle上提出课题的是希望将数据分析委托给外部的企业以及想寻找优秀数据分析师的企业。Enlitic在Kaggle上提出课题,并聘用了完美解决了该课题的分析师。跟医疗知识没有关系。
Enlitic公司为何选择Kaggle?其实,Enlitic的创始人兼CEO(首席执行官)Jeremy Howard也曾是Kaggle的总裁兼首席分析师。也就是说,Enlitic公司也是知道通过Kaggle可以找到优秀数据分析师的Howard,为了充分利用数据分析师开展新业务而成立的公司。
数据分析师已开始改变产业
Child说,“Howard想创建一家能让优秀数据分析师持续工作25年的企业,因此创办了Enlitic公司。听说他设想的业务除了医疗图像诊断外,还考虑过寻找石油和天燃气等”。数据分析师站在最前沿,然后才有应用领域。
Child说,“Kaggle给每个人都提供机会,只要能写出色的代码,能力就会得到认可,这是一个非常公平、民主的地方”。聚集在这里的数据分析师在完全没有“业务知识”的领域开发应用软件,已开始取得超越现有内行人的成果。通过Enlitic公司,不仅能预测医疗行业,还能预测整个产业界的未来,从这个意义上说,该公司也是非常重要的存在。(特约撰稿人:中田 敦,硅谷支局)
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。