采访Ioannis Tsamardinos,CEO& Co-Founder, JADBio

我们感谢 ioannis tsamardinos.JADBIO. 参加这次AI智能之家并分享几个AI智能之家,包括:

  • 进入数据科学和AI的旅程
  • 数据科学和AI最相关的突破
  • JADBIO,JADBIO平台的增长以及药物发现的进步
  • 机器学习如何帮助解决Covid-19
  • 用于抱负数据科学家的学习途径

#getting始于数据科学& AI

你意识到你想要追求数据科学的职业生涯(数据&AI),你是如何进入的?

我从一个非常令人难度的时候被吸引到AI,几乎我开始在我的少年的计算机科学上认真对待计算机科学时,我的思绪将漂移到我们如何建立智能系统。我读了书“戈德尔,eScher,巴赫“和”心灵的我“,这对我来说是一个转折点:我会成为一个研究员。当我准备好研究生学习时,我被机器学习所吸引。 “数据科学”一词不是发明的,而且机器学习与处理数据的其他科学不同,如统计和模式识别。但他们将我分配给了一个监督员,其专业知识是AI规划。

AI规划处理解决系统应该做的行动的问题,如机器人或软点,以实现某些目标。我确实发现了有趣的主题并坚持不懈。我在美国宇航局进行了实习,激发了我在大师和博士中解决的主题和问题。论文。但是,在我脑后,机器学习是我秘密的激情。当我毕业时掌握。生物信息学正上升。我们刚刚解码了人类基因组,所以炒作很高。将机器学习应用于生物学和开始生产的大规模数据似乎过于令人兴奋。我有邀请加入Vanderbilt大学的朋友的实验室,并致力于这些问题。无论好坏,我都拒绝了加入美国宇航局的要约,成为Vanderbilt的教授。

数据科学不是我的专业知识,所以这是一个胆大的决定,但它对我来说异常好。没有遗憾。

在您看来,在过去1-2岁之间影响我们世界的数据科学中最相关的突破,以及您认为新兴趋势如何发展?

在这个非常充满活力的领域中,有惊人的发明和发现一直出现。很难分开最重要的突破。深度学习当然是一种技术和方法,可以以持续的速度保持产卵突破。可以在数据分发之间转换的新类型的生成对抗性网络(GAN)对我来说是最令人兴奋的,因为它们连接了不同的组和类型的数据。但还有其他技术即将来临,我们应该留意他们。

当然,我在我看来非常偏见,但我考虑了因果发现和自动化机器学习领域的一些下一个大事。因果发现涉及从数据的因果关系,而不仅仅是预测的。主要区别是预测关系,统计相关性,告诉您如何预测未来。因果关系告诉你 如何影响 未来。所以,医学,生物学,商业决策,经济决策,以及我们的大部分科学都在寻求因果模式,而不仅仅是预测模型。我们需要了解因果关系来做出明智的决策。最近在这一领域迈出了一些重大进展,而且机器学习的许多超级明星现在正在努力解决因果发现问题。

最后,自动化机器学习(Automl)是下一个大事。它可以自动化大部分机器学习 - 并非一切 - 并提高了生产力。它可以为每个人的手和民主化数据科学提供机器。我开始了我的创业努力,试图建立一个创业商提供因果发现的产品;我和投资者谈过,我留下了印象,即市场仍然不成熟。所以,我在Automl上创建了一个启动,但我真正想要建立的是自动的因果发现。

您如何学习在获得公司购买到通往GUT的领导者的哪些课程?

嗯,我正在培训分析数据并依靠数据进行决策。所以,早在我们负担得起的那样,我们提出了机制来衡量关于使用我们产品,营销结果,用户行为等的数据的数据。但是当你是一个初创公司时,你必须基于胆量的前几步。它可能看起来是随意的,但这并不完全。我在这个领域有15年的经验,我谈到了众多会议,将我们的原型作出了众多的人,所以我确实有一些数据在我的大脑中被印记引导我。他们不是很难的数据。尽管如此,当您开始分析客户端的实际数据时,您将惊讶于100次。并且惊喜将继续来临。总体而言,您必须收集数据并基于您的决定,但当您在新的方向冒险并具有新的想法时,就没有替代直觉。


#About JADBIO,机器学习在药物发现和Covid-19

领导者必须改变他们的态度并承认他们不了解他们的业务和客户的一切;数据仍可能持有新的知识和一些惊喜。

ioannis tsamardinos.

JADBIO如何出生,JADBIO平台的愿景是如何?

JADBIO的根部恢复了很长时间。虽然我还是一名研究生,我们与我的博士学位有讨论。学生结合规划和机器学习,特别是自动创建如何对手头进行特定数据集和问题进行分析的计划。但我必须完成我的博士学位。所以我没有采取行动。然后,我成为Vanderbilt University的教师,我们真的需要自动分析。我们创建了基因表达式选择器或宝石,实际上是有史以来的第一个自动型工具; Name Automl未创建。不幸的是,解释它所有的是非常困难以及为什么当时对大多数生物学家和生活科学家有用。市场尚未准备好。

我们收到了很多关于如何构建比样本更预测的预测的预测模型如何构建预测模型”然后,古典统计人员将提倡。我们在一个主要会议上赢得了奖项,但只不过是这一点。这是一个牌子。但是,10年后,我决定给它另一个机会。我们没有建立一个独立的产品,而是一家名为CLC BIO的另一家公司的自动加载项。当我们加附加就绪时,CLC被卖给另一家公司,我们的产品是一个牌。最终,我决定以正确的方式做到这一点:获得一些严肃的资金,获得商业计划,并创造一个闪亮的新独立产品,Jadbio出生。 

我们的愿景是赋予科学家,组织和机构,具有正确和高质量的数据分析。这将导致发现新的科学,并提供基于证据的决定和政策。但是,我们希望自动化可以变得如此可获得,即它将在即将到来的基于数据的世界革命中实现普通公民的参与。我们希望船上的每个人分析他们自己的数据或公共数据他们发现有趣。为了实现这样的目标,我们需要创建智能的软件,以知道如何处理所有类型的数据和问题。

目前,我们专注于生物医学。我们的希望是拯救生命并发现新药和生物学。我们计划扩展到其他类型的数据,以包括涉及序列数据,医疗信号,图像,医疗说明,单细胞数据和任何新型新兴技术的生物医生中不断增长的生物医学类型的问题。我们希望使用其他类型的分析增强JADBIO,如因果发现和因果分析。我们即将介绍分析的技术,以便在隔离中分析您的数据集,而是在生物数据库中数千个其他公共数据集的上下文中。没有缺乏想法或野心。

机器学习的进步如何加速药物发现过程?

我们通常不会意识到它,但药物发现以及许多其他领域,通过过程中的机器学习和数据科学在过程的各级和数据科学中受到深刻的影响。要了解生物机制和识别可能的药物目标,我们使用机器学习。预测化合物是否将绑定在目标上,因此值得尝试,一些方法使用机器学习。要分析临床试验数据,以确定可能的不利或有毒效果,我们使用机器学习,此外还可以进行标准统计数据。做精密药物并预测个人对个人的有效性......机器学习。探索药物重新施肥,机器学习。当然,机器学习并不总是在这些问题中的标准工具,但它被越来越频繁地使用。所以,可以安全地说,没有机器学习,我认为药物发现会更慢或更少效率。当你给自己施用药丸时,请考虑一下。

您能否阐明数据科学和机器学习如何帮助Covid-19相关的各个方面?

在许多国家,密切监测和测量疾病的进展,并收集数据。世界各地的研究人员跃入了分析此类数据并有助于战斗大流行的机会。截至目前,在Covid-19上有大约500个科学论文使用2021年的关键字“机器学习”,当然,在没有明确指出机器学习的情况下,可能存在其他数据科学技术。预测模型,因果模型和数学模型(即,基于微分方程),以预测疫情对普通群体的速率而且在子组中。

研究人员还试图做一些因果归因,并弄清楚导致疾病传播给这些亚组,决定了行动和干预措施,并告知公共政策。例如,希腊语麻省理工学院教授Dimitries Bertsimas开发了一个名为Delphi的预测和因果模型,该模型被准确地预测了美国的疾病率。该模型建议呼吸机池干预措施来减少 Covid-19的死亡率。当然,公共政策不仅是科学问题,而是...政治,经济学和其他因素也是如此。其他类型的模型集中于疾病的生物学并鉴定易受对Covid-19严重反应的亚组。这些模型可用于保护人口最敏感的部分并拯救生命。使用JADBIO,我们最近开发并发布了这样的模型。

您将给其他想要进入数据科学用例的其他商业领袖的建议?

一方面,必须将他们的业务带入数据科学时代以保持竞争力。这意味着记录其业务的所有数据 有意分析。分析不应该是一个事后;您必须从一开始就正确地设置数据集。必须系统地记录数据,具有明确定义的程序,含义和结构。一个必须主动他们希望从数据中学习以衡量允许预测的正确数量。如果您不学习您的业务数据,您将无法在未来十年内存竞争。商业领袖必须承认他们的数据有价值;采矿和分析它们将帮助他们改善他们的业务,并做出基于证据的业务决策。肠道和直觉还不够。领导者必须改变他们的态度并承认他们不了解他们的业务和客户的一切;数据仍可能持有新的知识和一些惊喜。

另一方面,他们必须意识到危险,因为有些人。首先,数据科学是昂贵的,数据科学家稀缺,并建立一个质量的数据科学团队并不容易。希望,Automl产品达到成熟时,分析成本将下降。此外,还有一系列优质数据科学家们在那里!商界人士必须小心。众多人在他们的简历中写下“数据科学家”只是因为他们知道如何调用Python库,而他们对数学,统计和机器深入了解。我已经与商业的分析师合作,建立了随机猜测的预测模型!当然,他们不知道,他们的老板尚不知道,因为他们从未教过正确的方法,以衡量某些非典型情况下模型的预测性能。它并不总是微不足道。微妙的统计现象Lurk威胁分析。


#words抱负数据科学家

雇用数据科学家时,您可以寻找什么技能和态度?

他们不叫数据科学A 科学 意外地。分析数据始终具有研究组件。您正在发现模式,您正在探索。您不一定总是知道您究竟在寻找什么,或者有趣的是什么,或者是可视化结果的最佳方式。因此,数据科学家的一些主要专业技能都是经验丰富的,采取主动性,并进行研究。不一定是在意义上,他们是发明新的算法和方法,而是研究数据试图告诉你的。作为主管,您不能总是将精确的步骤和算法给予数据科学家并通过整个方式封装它们。他们必须具有自然的倾向来挖掘更深,试图了解,以多种方式可视化数据,并提出想法,解释和解释。这是一个艺术而不是精确的科学。对我来说,理想的数据科学家是一位科学家,是一位艺术家,是一名研究员。

您将推荐年轻数据科学家挖掘哪些资源是什么?

我不会推荐下一个Python库来使用或用于机器学习的R包或新的编程语言。这些变化一直在谷歌搜索可以轻松找到。我认为该领域的新科学家的一个主要问题正在发现宝石并扔掉污垢,因为这只是如此多的炒作,文章和视频。我建议年轻的数据科学家学习他们使用的工具背后的统计和机器学习理论。我建议阅读像弗里德曼等人的“统计学习元素”这样的经典书籍。不要赶上单独的深度学习的炒作。必须具有更完整的背景,包括基本统计和机器学习概念和技术。学习因果发现和建模完全改变了您的观点和数据科学的视角,绝对值得。本书“因果关系,预测和搜索”是一个必须的主题。

标记您希望查看这些问题的一两个数据科学领袖。

好吧,有些人尊重,我不仅找到了知识渊博和成功的,而且有远见的是博尔瓦尔斯·斯宾克斯研究所和Yoshua Bengio的伯恩哈德Schölkopf。最近,他们共同撰写了一个有趣的文章,将因果发现和深度神经网络相结合,这些网络在核心中指向一个有趣的方向,这可能是该领域的下一个突破。

副主编

我是联合创始人&基于新加坡的数据科学和AI初创公司的CTO,以及一位机器学习爱好者,他喜欢与人们互动,了解有关人工智能如何塑造组织和人民的生活以及它如何用于优化业务运营。

加入AI时间杂志
加入助理编辑

您是否有兴趣分享AI的信息和知识,并与现场中的一些最聪明的思维联系起来?

了解加入作为一个 Associate Editor.

about aditya.

我是联合创始人&基于新加坡的数据科学和AI初创公司的CTO,以及一位机器学习爱好者,他喜欢与人们互动,了解有关人工智能如何塑造组织和人民的生活以及它如何用于优化业务运营。

查看上午的所有帖子。 aditya.→