爱思唯尔数据科学健康内容运营副总裁Kaushik Raha访谈

考希克·拉哈(Kaushik Raha)一直是各个医疗保健组织的数据科学团队的负责人。在组建高性能数据科学团队和利用AI加速全球医疗保健发展方面,他拥有清晰的愿景。  

我们感谢 考希克·拉哈(Kaushik Raha)爱思唯尔 参加这次访谈并详细回答问题。他分享了多年数据科学经验中的一些AI智能之家&医疗保健包括:

  • 他在招聘数据科学家时寻求的技能
  • 数据科学解决方案的基本方面
  • 他的角色&爱思唯尔的责任
  • 从他的数据科学领导生涯中学到的东西

我经常说如果您要造船,请靠近水。因此,持续开发可迭代地,可靠地在特定环境中交付和测试的代码的能力是成功的关键。

考希克·拉哈(Kaushik Raha)

随着越来越多的机器学习,深度学习和计算机视觉算法被用于医疗保健领域的数字化转型,人工智能在加速数字化方面也发挥着作用

考希克·拉哈(Kaushik Raha)

建立一支高绩效的团队与最佳人力资源利用活动相似,需要具有高水平情商的领导者。

考希克·拉哈(Kaushik Raha)

让’马上进入对话。喝杯咖啡,享受这段对话吧!

是什么使他确信数据科学是他职业的理想选择

CK:在什么时候您意识到自己想要从事数据科学职业(数据&AI),您是如何进入的?

KR: 我想说这是2013年的一个特定时刻,当时我意识到我想从事数据科学职业。那时,我受雇于葛兰素史克(GSK)制药公司,担任计算科学家,当时我与R&D队从事药物发现。我已经在使用大型数据集并使用机器学习和高级算法来解决问题。大约在这个时候约翰逊的数据科学机会& Johnson (J&J)的自我介绍激起了我对该领域的兴趣。但是我拒绝了这份工作,因为我不确定当时是否适合我。但是,随之而来的是我对数据科学所有事物的浓厚兴趣,我意识到直到那时我的培训和经验为我从事数据科学事业提供了独特的准备。 

您会发现,我在本科学习生物物理学,从那时起就一直在使用数据和算法。随后,我获得了宾夕法尼亚州立大学计算化学与化学生物学博士学位。在获得博士学位之后,我在旧金山的UCSF做了博士后,然后加入了我与R合作的GSK。&D团队并应用计算算法进行药物发现。到这个时候,我已经在高度定量以及跨学科领域积累了多年的经验。最终,数据科学还是一个高度定量和跨学科的领域。因此,最后,我坚信这是适合我的职业选择。幸运的是,J带来了另一个数据科学的机会&J,这次我接受了报价。 2014年,我开始担任J的首席数据科学家一职&J.


招聘时他寻找的关键技能和方面

CK:您在雇用数据科学家时会寻找什么技能和态度?

KR: 我将首先回答态度部分,因为我认为这非常重要。在雇用数据科学家时,我会寻找有能力和热情进行协作的人员。他们需要具有正确的态度,以便能够在高度矩阵化的环境中工作,与来自不同背景(例如产品设计,内容,工程,分析,UI / UX等)的人员一起工作,并在如此大的环境中工作自如多元化的团队。我坚信,团队合作可以解决重大问题,而成为团队合作者是数据科学家的关键属性。当然,随之而来的是有效的沟通。因此,出色的沟通能力和和可亲的个性也很重要。

最后,我认为同情心对成功的团队发展大有帮助,倾听和同情心是我所追求的关键态度。这些属性不能代替技术专业知识,但实际上,除了技术技能和专业知识之外,这些属性是互补的,也是成功所必需的。

在技​​能方面,我当然会寻找关键的数据科学技能,例如能够使用python,C / C ++,scala,java,spark,R等不同语言编写代码的能力。但是,到目前为止,python是是我们的选择,因此我们为我的团队管理了一个python编码测试。我们评估候选人的代码编写能力,而不是解决某些罐装计算机科学问题的能力,而是解决我们面临的现实问题的能力。我也在寻找处理大数据的舒适度,并且在雇用数据科学家时,我更喜欢在大型数据集上工作的实际经验。这就是我寻找具有定量背景和受过教育培训的人员的原因之一,其中重点是博士学位。到目前为止,我团队中的大多数数据科学家都拥有博士学位。他们拥有生物信息学,神经科学,应用数学,计算机科学,语言学,&物理。我发现博士学位培训非常有价值,因为您可以花时间在博士学位上解决与团队(大多数情况下)一起工作的难题,这为您从事数据科学职业做好了充分的准备。


他的主要职责和领导角色

CK:您目前在Elsevier领导Smart Content。您担任此职务的主要职责是什么?

KR: 好吧,目前我是爱思唯尔健康内容运营部门数据科学副总裁。但是,我开始在Elsevier担任Smart Content总监。我目前担任数据科学和人工智能优先解决方案的开发和部署者,负责领导Elsevier’的内容转换工作,并增强了针对医疗保健,健康教育,生命科学和制药的产品和平台功能。我领导着由60名数据科学家和卫生领域专家组成的全球团队&生命科学正在从内容中大规模地创造知识。

我目前的重点是Elsevier’在健康市场的产品,涵盖临床参考,搜索和发现,教育以及先进的临床决策支持。我的团队常规应用AI–深度学习/机器学习,自然语言处理(NLP),计算机视觉–以及其他数据科学功能,以构建解决方案并支持Elsevier在精密医学,计算机辅助诊断和即时护理方面的产品。我的团队还为Elsevier的临床和护理教育业务提供支持,并且我们运用尖端的数据科学和AI来改善我们的护理教育产品组合。

资料来源:Unsplash

此外,我还从运营效率的角度领导认知自动化活动,并且我是数据科学领导小组的成员,该小组制定了数据科学战略以支持我们的核心业务,并为整个Elsevier开发数据科学和分析的职业框架。


数据科学在医疗保健领域的影响领域

CK:您如何看待数据科学在医疗保健中的作用?哪些领域或用例最有前途?

KR: 我看到数据科学在医疗保健中扮演着非常重要的角色。它已经确立了自己的地位,并对医疗保健产生了重大影响,但是我相信,最好的还没有到来。医疗保健本质上是一个数据丰富的领域。 (大)数据在医疗保健中无处不在,无论是患者电子健康记录,医学影像,保险理赔,可穿戴设备的数据,还是生物标志物以及基因组数据和其他“组学”数据(通常会在每个患者的水平上收集)。因此,医疗保健数据预计将比其他任何部门增长更快,并且到2025年的复合年增长率(CAGR)可能会超过30%。

除此之外,我们还开始看到数据科学与人工智能(AI)技术的融合,这些技术在过去几年中成功解决了医疗保健和生命科学中以前难以解决的难题。成为数据科学和人工智能先驱的大型技术公司专注于医疗保健并大打赌也就不足为奇了。未来几年,这一趋势将加速发展,我们将见证数据科学和AI成为医疗保健的关键支柱,涵盖整个价值链。

从广义上讲,关于用例,将在改善患者预后并降低护理成本方面。人工智能还将加快药物研发和临床开发周期,这将对医疗保健产生重大影响。这些领域将有大量用例,这些用例将由数据科学和AI驱动。从我的角度来看,最有前途的是用例,其中AI是基于证据的个性化医学的驱动力,有助于减少诊断错误并确保护理的统一性,并解决医生的倦怠和医疗资源的最佳利用等问题。


数据科学中可操作性和可伸缩性的重要性

CK:您从开发可扩展的数据科学和分析解决方案中学到了什么?

KR: 我所学到的有关开发可伸缩数据科学和分析解决方案的关键课程之一是,为了使该解决方案具有可伸缩性,从项目一开始就需要解决数据科学的运营问题。有时,数据科学家会陷入开发解决方案的陷阱,而没有考虑任何可操作性。这可以采取较小规模解决问题的形式,使用无代表性的训练数据集或选择错误的堆栈来构建延迟时间长且缩放效果不佳的机器学习模型。

数据科学家需要非常了解连续集成/连续部署(CI / CD)过程,并在该框架内进行算法开发工作。我经常说如果您要造船,请靠近水。因此,持续开发可迭代地,可靠地在特定环境中交付和测试的代码的能力是成功的关键。说起来容易做起来难,并且从一开始就需要数据科学和工程团队之间的强有力的合作。他们需要在同一页上就具体解决方案的实施方式达成共识,并就CI / CD管道达成共识。我了解到,必须进行很多计划,团队之间的沟通至关重要,否则项目可能会很快脱离轨道。

通常,澄清项目团队中的角色和职责对于成功也至关重要。我的意思是,数据科学家应关注从可用数据中构建最佳模型,以适应产品需求,工程师应关注这些模型的部署并确保可伸缩性。由于机器学习的商品化,有时这是不受欢迎的,而建立一个好的模型所需的经验和专业知识却被低估了。


人工智能促进医疗保健发展和数字化

CK:如何在成长中和落后的国家中使用AI来改善医疗保健?

KR: 人工智能在改善成长中和落后国家的医疗保健方面起着越来越重要的作用。就像无线技术为发达国家和发展中国家/不发达国家之间的通信部门带来了某种程度的均等一样,人工智能似乎有望在医疗保健中扮演类似的角色。在这些国家,在改善患者预后和降低护理成本方面都将感受到AI的影响。发展中国家和不发达国家今天面临的最大挑战之一是缺乏训练有素的医学专业人员,例如医生和护士,以及他们集中在大城市和经济中心内外。

资料来源:Unsplash

AI算法在协助诊断和降低诊断错误率方面变得越来越复杂,从而直接影响医疗成本,而且在落后国家的背景下,该技术可以解决医师短缺和倦怠的问题。结合数字参考内容和远程医疗,人工智能可以帮助改变这些国家的医疗保健。这当然不是没有挑战的。

人工智能的先驱之一是数字化,落后的国家在数字化方面仍然落后。实际上,在这些国家,医生仍然在病历上’笔记通常是手写的,成像仍在胶片上。但是,我相信,随着越来越多的机器学习,深度学习和计算机视觉算法被用于医疗保健领域的数字化转型,人工智能在加速数字化方面也可以发挥作用。发展中国家将特别从这一现象中受益。在我的团队中,我们在这一领域做了很多工作。在这一点上,我想对我的老板Elsevier表示赞赏,因为他在该领域拥有很大的足迹。具体来说,爱思唯尔(Elsevier)与印度的医疗保健行业有着深厚的联系,我们正在与印度的组织和政府合作,致力于解决该国在医疗保健方面面临的众多问题,并且我们正在利用人工智能来解决这些问题。


他从领先的数据科学团队中学到的东西

CK:在过去的几年中,您领导了数据科学家和领域专家团队。在构建和领导高性能数据科学团队方面,您所学到的最重要的课程是什么?

KR: 我学到的最重要的教训之一是,高绩效团队是任务驱动型的,并且固有地需要将他们正在处理的问题与更大的任务或更高的目标联系起来。因此,要成为高效团队的有效领导者,就必须非常清楚地阐明任务和愿景,并经常加以加强。这对于建立高绩效团队也有很长的路要走,因为这些高绩效的人不仅在寻找工作或薪水。我很幸运能在Elsevier等公司从事医疗保健和制药行业的工作,该公司可帮助研究人员和医疗保健专业人员提高科学水平并改善健康成果,从而造福社会。因此,相对于加入团队的才华横溢的数据科学家和领域专家来说,表达我的使命和愿景相对容易。

资料来源:Unsplash

另一个重要的教训是,高绩效的个人和团队正在寻求解决难题,因此需要相应地挑战。我已经看到,绩效高的人有些不耐烦,他们需要不断面对难题,否则他们就会继续前进。领导者的工作是将此类问题带给数据科学团队,同时确保与业务和长期企业优先事项保持一致。有时这并不容易实现。

最后,要建立一支高效能的团队,数据科学负责人需要对单个团队成员最热衷的东西有很好的了解。是什么使他们打勾,以及他们将要完成的任务和问题是什么。建立一支高绩效的团队与最佳人力资源利用活动相似,需要具有高水平情商的领导者。

为什么数据科学家应该像艺术家一样思考

作为数据科学领导者,您实践或主张采取哪些不寻常或荒谬的事情?
KR:我提倡数据科学家的不同寻常或荒谬的事情是像艺术家一样思考。尽管科学家天生具有高度的分析能力,并且擅长数字和数学或统计概念,但他们常常无法传达这些AI智能之家,以使那些’不了解技术术语。那’这就是为什么我建议数据科学家引导他们的内在艺术家更好地沟通。我要求他们讲一个有关他们进行的分析的故事,或者进行漂亮的交互式可视化,或者构建一个引人注目的应用程序以展示其模型的实用价值。 为此,他们需要走出科学的舒适区,并运用他们的艺术敏感性。我发现这还可以改善产品设计,并因此可以从利益相关者那里买入。

人工智能的未来趋势

在过去的1-2年中,影响我们世界的数据科学领域中最重要的突破是什么?您看到了什么发展趋势?
KR:从我的角度出发,最相关的突破是深度学习,计算机视觉和语言建模(NLP)。这些突破对健康科学产生了深远的影响。生物学和医学将成为数据科学和人工智能应用将产生深远影响的领域。语言建模将继续出现的最明显趋势是“变压器军备竞赛”这导致了最新语言模型的发展,例如BERT和最新的GPT-3。这些突破正在推动机器对语言的理解和理解的界限,我认为这是最终的前沿,它将引领我们走向人工智能(在不久的将来)。

同样,深度学习’对解决未解决的生物和化学问题的影响是惊人的。一个典型的例子是DeepMind’的AlphaFold在解决蛋白质折叠问题方面显示出巨大的成功。在我攻读博士学位期间就致力于解决这个问题,我相信这是一个真正的突破,最终将加速发现具有开创性的一流疗法的发现。其他深度学习技术,例如,生成对抗网络或GANS,也在解决生物医学中的众多问题方面取得了进展。数据科学和人工智能也正在影响临床医学,并将支撑决策支持和医疗服务的未来发展。人工智能将在医疗保健数字化转型的上游以及下游来自临床试验,现实世界证据,生物医学文献以及分子和生物学证据的综合方面发挥重要作用。‘omics’数据,以改善结果。

副主编

茶yan 是一位注重细节的创意数据科学家。他是每天的学习者和博客作者,非常渴望分享知识并支持数据科学社区。与他联系 领英 联系并不要’别忘了检查他的 博客。

数据科学|机器学习|科技博客– upGrad

关于Chayan Kathuria

茶yan 是一位注重细节的创意数据科学家。他是每天的学习者和博客作者,非常渴望分享知识并支持数据科学社区。与他联系 领英 别忘了检查他的 博客。 数据科学|机器学习|科技博客- upGrad

查看Chayan Kathuria发表的所有帖子→