艾伦·图灵研究所行为数据科学负责人Ganna Pogrebna访谈

加纳·波格列布纳(Ganna Pogrebna)是 艾伦·图灵研究所。她主持一个 行为数据科学播客 并最近被提名为《 AI时间杂志》启发人之一  2020年将跟随数据科学家.

我们感谢加纳参加了 2020年数据科学访谈系列 并分享她的经验中的一些深刻AI智能之家,包括:

  1. 与来自不同领域的人交谈以提出开箱即用的解决方案的重要性。
  2. 她对数据科学领域的多样性和包容性的想法。
  3. 她担任播客主持人。

1.在什么时候您意识到自己想要从事数据科学职业,您是如何进入该行业的?

与许多人不同,我完全是偶然地进入数据科学的。我以决策理论家的身份开始了我的职业生涯,致力于人类行为的定量模型。我曾在许多不同的大学工作,包括纽约市的哥伦比亚大学(美国),华威大学(英国),洪堡大学(德国)等。

我最初的工作是行为科学而不是数据科学。我的大部分工作是编写数学模型以尝试预测人类行为,然后在实验室中测试这些模型。这种工作方式是,我将编写一个人类决策模型,然后邀请研究参与者进入实验室,在实验室中进行一系列决策。然后,我将使用这些实验室会议中的数据来查看模型是否有效。如果它不起作用–我会写一个不同的模型。

尽管预测人类行为令人兴奋,但实验室研究通常需要数百名参与者。我一直想检查一下我的理论是否可以大规模运用并在现实世界中创造价值。

AI时间杂志资源
您正在学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家成长。

因此,在2013年,我设法在Warwick Manufacturing Group(华威大学)工作,在那里我可以与英国的企业合作,使用大规模数据集进行许多消费者选择,数字转换和AI项目。我的第一个项目研究了如何使用智能家居传感器数据来预测消费者的决策。这个项目改变了我的生活,从那一刻起,我就知道我想要做的是数据科学,特别是行为数据科学。

2.数据科学如何用于在您当前的项目中创造价值?

我的大部分工作是了解人们的喜好。数据科学通过以下三种方式在我的项目中创造价值:

(1)当我研究决策理论和数据科学之间的混合模型时(例如,过去18个月中我一直在开发的拟人化学习建模方法),数据科学使我能够开发新知识。

(2)数据科学使我能够大规模解决问题-例如,最近,我的团队在使建议系统对使用拟人化学习的消费者更有用方面取得了重大进展;

(3)最后,与其他工具不同,数据科学使我可以创建前瞻性模型。例如,使用传统营销,我们可以查看现有的产品/服务,并预测哪种类型的消费者想要购买该产品/服务(以某种方式,我们对产品和服务的偏好进行了重新设计)。借助行为数据科学,我们可以编写前瞻性模型-例如,我们可以预测特定消费者希望明天获得的产品/服务的功能,然后不仅可以创建此个性化产品/服务,还可以将其交付给消费者使用大规模定制工具。

简而言之,对我而言,一般的数据科学,尤其是行为科学,使我们能够看到数据和数据驱动的AI智能之家如何在整个供应链或业务模型中传播,从而为业务创造更多价值并提高客户满意度。

3.什么是最能推动您的数据科学事业发展的最佳投资之一?

就我而言,最重要的是发展我的网络。通过这个网络,我遇到了一些人,这些人帮助我了解了解决我要解决的问题所需具备的技能。在我看来,最好的办法是与不在我领域工作的人交谈。最好的想法,结果,协作和项目通常是您跳出框框思考时出现的。您不需要为此花费很多时间,金钱或精力。您唯一需要的就是倾听和理解不同观点的愿望和意愿。

我认为,最好的办法是与不在我领域工作的人交谈

4.您如何跟上最新发展?

我很幸运能够在世界数据科学领域的佼佼者之一-艾伦·图灵研究所工作。因此,我首先要了解发生的事情是 艾伦·图灵研究所,其网站,研讨会,会议以及其他虚拟和面对面的活动。第二名是 arXiv在这里,我总是阅读有关数据科学,机器学习和AI的最新论文。只有阅读原始论文,您才能判断所提议的模型创新实际上有多有价值。最后,我们在艾伦·图灵研究所(艾伦·图灵研究所)以及行为数据科学领域的特殊兴趣小组 数据驱动聊天播客在这里,我们邀请数据科学及相关领域最酷的人参加,这是我不断获得灵感和学习的源泉。

5.作为一名专业数据科学家,您当前面临的最大挑战是什么?如何应对这些挑战?

对我而言,主要挑战之一始终是学习新工具,或者花时间学习新工具。总是有新的东西要学习,很容易错过,因为那里有很多有关数据科学的信息。

例如,我现在意识到我对Python的了解不足以完成我的所有工作,因此我正在学习Julia,并且花时间来做到这一点。对我来说,另一个重要的挑战是考虑如何确保我开发的所有模型和工具都以负责任的方式使用人们的数据。

使用数据科学工具来伤害人们非常容易,因此我总是试图预见我开发的行为数据科学模型的潜在不利影响。

6.您对企业/行业的领域知识有多重要’身为数据科学家,您是如何获得的?

我是一名学者,所以我经常作为企业顾问,提供行为数据科学解决方案(例如,我最近的项目是开发个性化聊天机器人技术)。但是,商业/行业/领域知识非常重要。我始终与在我咨询的组织中具有这些知识的人员一起工作。使他们参与工作的主要好处是:(i)他们了解需要解决的问题,并可以为数据科学家制定问题陈述; (ii)他们知道数据的来源,这些数据的价值/无用,最重要的是,不同的变量意味着什么。

作为数据科学家,我们致力于研究许多模型,以解决实际问题。因此,了解数据科学如何在特定业务环境中提供帮助非常重要。同样,重要的是,要有一个了解组织数据的人-我们的模型只有在训练有素的前提下才能运作良好,因此,了解业务环境中的数据对于项目成功至关重要。我认为数据科学家不需要深入的领域知识,但我确实认为项目团队至少应有一个具备此知识并可以帮助指导工作的人员。

7.在您作为数据科学家的职业中,您实践或主张采取哪些不寻常或荒谬的事情?

我想到了几件事。首先,我有十几个GitHub页面,并且从未在任何这些页面上使用本名。造成这种情况的主要原因是,过去我已经编写了一些代码并开发了一些软件,现在许多人都在使用它们。问题是,一旦您开发出某种东西,人们就会期望您维护它。但是,我一直想尝试一些新的东西。我认为许多人不喜欢GitHub等开源资源来确保人们在项目上进行协作。他们不会在那里用数千封要求“更新”代码/软件的电子邮件轰炸原始开发人员。关键是-如果您是代码或软件的原始作者(决定将其开源),则不再拥有它-它属于社区。

我认为与众不同但非常重要的另一件事是用简单的方式解释您的工作-因此,我创建了自己的 YouTube频道在这里,我尝试用任何简单的术语来谈论数据驱动的科学和项目,任何人都可以理解。

8.是什么激发您从事数据科学工作的?

我爱两件事:(i)作为行为数​​据科学家,我从事许多不同的项目(从人们如何在超市购买商品到宇航员如何在太空的风险和不确定性下做出决定),这真的很酷; (ii)我们拥有思想家的领域的多样性和包容性(他们从概念上理解“黑匣子”数据科学/ AI模型);做事者(在实践中使用“黑匣子”模型)和开发人员(更改“黑匣子”模型,甚至可能致力于确保我们使用的模型不再是“黑匣子”)。

9.您对今天想进入数据科学领域的人有什么建议? 

我想说的是,您需要的两个最重要的事情是想象力和学习的欲望。如果您有想象力,您将能够提出有趣的问题。提出问题后,如果您愿意学习,便会获得解决这些问题的技能。

他们应该忽略什么建议?

在您的职业生涯中会有很多人会告诉您一些不可能的事情,您不应该尝试。如果您听取此建议,您将留在原地,不会发展。我喜欢詹姆斯·卡梅隆(James Cameron)的话: 如果您设定高得离谱的目标’如果失败,你将比其他人失败’s success”。本质上,不要仅仅因为有人告诉你就放弃。同样,如果您第一次失败也不要放弃-再试一次。

10.在过去的1-2年中,数据科学和机器学习中最重要的突破是什么,您看到了什么发展趋势?

我的回答将非常偏向于我的个人偏好,但是我认为近年来的主要突破是(i)XAI模型,特别是有助于理解机器学习预测(即,帮助“解开”黑匣子预测的)模型- LIME模型和类似技术; (ii)行为数据科学作为一个领域的出现–将人类行为理论与机器学习模型进行混合和匹配很酷!

11.标记一个或两个您希望看到回答这些问题的数据科学家。

克里斯蒂·惠特克(Kirstie Whitaker)

的使命 AI时间杂志 是泄露信息
和关于人工智能的知识,
的到来和使用AI技术的新机会
造福人类。

关于AI Time Journal编辑人员

的使命 AI时间杂志 是泄露信息 和关于人工智能的知识, 的到来和使用AI技术的新机会 benefit humanity.

查看AI Time Journal编辑人员的所有帖子→