采访TrueCaller的数据科学家Abhinav Bhatnagar先生

Abhinav Bhatnagar先生是一个大型数据师,拥有6年以上的经验,对采矿洞察力有兴趣,建筑机器学习管道大数据,大数据科学。我在机器学习,深度学习,大数据技术中获得了专业经验(Hive,Hadoop,Spark,Mongodb,Kafka)和语言。他正在在TrueCaller工作。

问:在完成工程学士学位后如何成为数据科学家?

数据科学家的作用仍然不断发展,而印度组织仍在努力通过数据科学来实现其他东西。数据科学家不仅仅是机器学习人员。我认为这个角色是5种不同角色的重叠 - 数据分析师,数据工程师,机器学习专家,统计学家和黑客基本上出箱外思想家)。寻找一个让所有这些品质的更新者对我们来说是一项挑战。现在,大学引入了实现基本数据科学专业知识的课程。合适的课程和项目可以带您到数据科学的道路。课程如数据挖掘,统计机器学习,应用统计,运营研究,大数据和列表进行了。

问:你是如何选择数据科学领域的?

老实说,它更为努力选择我。甚至在亚利桑那州立大学专业社交网络分析中追求计算机科学的硕士学位之前,我正在研究大数据和回归问题。数据科学只是已经完成的人的流行语。不时,行业重新发明这些嗡嗡声(如大数据,数据科学,深度学习,网络安全)生长自己。

问:请分享您的数据科学的知识和经验。

我已经看到了各种数据科学的应用 - 在金融气中,我已经完成了行业水平预算预测。在社交网络中,我已经处理了病毒预测。在网络安全中,我经历了脆弱性优先级,风险评估。在通信行业中,我正在努力制造货币化问题,观众的创作,垃圾邮件检测。数据科学持有我在美国和印度看到的不同趋势。在印度,组织希望您提供数据科学解决方案结束到底。然而,在美国,不同的团队帮助数据科学家获得制作的解决方案。我知道印度的一些公司也遵循相同的技术。这使数据科学家能够完全专注于问题陈述,而不是担心如何将解决方案部署到生产。说过,这次旅程到目前为止对我来说真的很棒,因为我看到了各种行业问题。

问:您正在使用哪种编程语言进行数据科学?为什么要使用那种特定的语言?

目前,我正在使用Python,Scala。我对Python的亲和力一直很老旧,我现在已经在过去的7年里使用了它。但是,你会惊讶于听到我开始与Matlab的数据科学。使用所有必要的库,Python易于启动您的实验。我喜欢它,因为Python的可读性和更少的复杂性。你说出问题,图书馆在你身边。

AI时间期刊资源
你学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家在他们的职业生涯中成长。

想要使用图像 - numpy,opencv,scikit

想在文本中工作 - nltk,numpy,scikit

想要在音频上工作 - librosa

想解决机器学习问题 - 熊猫,克里克特

想清楚地查看数据 - Matplotlib,海运,克里克特

想要使用深度学习 - Tensorflow,Pytorch

想要做科学计算 - SCIPY

想要集成Web应用程序 - Django

来源:
//www.academia.edu/38694302/Hard_Binding_file_on_prediction_loan

问:您更喜欢哪些软件进行数据科学?

我只是使用Python,Spark和Jupyter笔记本电脑。

问:如果我想成为一个数据科学家,我必须做什么?

  • 安德鲁NG ML课程
  • 大数据课程
  • 统计课程
  • 分析vidhya
  • 阅读案例研究
  • kaggle.
  • 哈帕萨顿

我相信所有这些都会完全花一年。每年对您的职业生涯奉献,您也可以成为数据科学家。

问:什么是深入学习?它与其他机器学习算法形成鲜明对比如何?

深度学习是AI / ML的一部分,通过神经网络处理给定的问题陈述。目前神经网络已经存在了很长一段时间。由于硬件行业呈指数增长,并且所有神经网络的计算都变得越来越快。但这不仅仅是它。数据也增长了更快的速度。由于缺乏数据并且计算昂贵,培训神经网络是过去的一个问题。我们已经达到了现在的问题的解决方案,您可能一直在听到深入学习的学期。传统的机器学习仍然是数据科学家首选,直到问题陈述适合神经网络。i

问:在文本挖掘中,需要哪些步骤?

文本挖掘是一个很漂亮的术语。文本数据通常是凌乱和嘈杂的。大多数数据科学家都进入清洁数据,以您需要的正确格式。清洁后,这是一步一步的过程,包括Stemming,Lemmatization,标准化。

然后基于您的问题,可以在统计上(TF,TF-IDF,散列TF)或像n-grams的解析方法,或者可以采用基于Word嵌入(浅神经网络)的方法。还有其他解析方法,例如POS(词语)标记,短语挖掘(TOPMINE),主题建模和NER(命名实体识别)。

问:学习机器学习的最佳方式是什么?

如果您想学习ML并启动项目,我建议安德鲁NG的课程。但是,如果你真的想了解引擎盖下发生了什么,那么你应该参加统计机器学习的课程。这是关于理论。休息和扭曲与您的业务问题相应的模型(应用机器学习)提供经验和实践。

问:如何处理数据集中损坏的数据?

损坏的数据基本上是数据收集过程中未能捕获的数据。存在此类异常删除或处理空的设置过程。异常值可以修剪或从样本中取出(如果您有足够好的样本)。对于NULL,我们可以避免它们,使用均值/模式值来修复数据。

问:我可以使用火花或任何其他大数据工具进行机器学习吗?

是的,火花原来是ML的惊人。虽然,一些基于树的算法等算法缺乏可扩展性。有不同的方式行业正在尝试在火花顶部运行keras模型。亚马逊的Sagemaker,微软的天蓝调肯定会影响他们的影响。

问:我们如何使用我们的机器学习技能来产生收入?

作为数据科学家,您可以在任何地方对公司的收入标记您的影响。无论您所处的域名,您解决的每个问题都是价值主张或向产品带来的收入。目前,我正在利用TrueCaller的广告和货币化的ML技能。在这里,我们构建的每种型号都会直接影响产品的收入。

问:您在深度学习中提供更多产品的领域?像医学或任何其他人一样的领域。

我的Forte在DL一直在文本。选择文本的关键原因是LSTM已经完全转变了与语言翻译,网,文本分类,文本摘要和主题建模的文本相关问题。

我贡献的主要领域将是网络安全和通信。

贡献者

编辑人员实习生

Pandian Saraswathi Yadav工程学院,对数据分析和机器学习感兴趣。

贡献者表达的意见是他们自己的意见。
加入AI时间杂志
加入助理编辑

您是否有兴趣分享AI的信息和知识,并与现场中的一些最聪明的思维联系起来?

了解加入作为一个 Associate Editor.

关于Monisha M.

编辑人员实习生 Pandian Saraswathi Yadav工程学院,对数据分析和机器学习感兴趣。

查看Monisha M的所有帖子→