未来:databricks’S对火花和云服务的野心和影响

在过去的几年里,大多数行业报告,市场信号,专家的意见,全球趋势,与技术相关的辩论,以及世界各地的更多是在一个方向上暗示–“采用Apache Spark正在上升”。 Spark的社区正在以外地增长,大多数大数据的突出平台都简化了他们的复杂过程,以利用Apache Spark并试图提供高效的分析,为客户的企业提供有价值的AI智能之家。 Apache Spark -Hadoop集成的尖端特征通过Microsoft,IBM和Facebook等多熟练的Powershouses,Apache Spark -Hadoop集成过度覆盖过突出的云供应商。

世界上最大的大数据以及机器学习会议每年在欧洲举行,这是计划开发商,数据科学家,数据工程师,技术高管以及决策者的独家“一站式店”了解大数据,人工智能和机器学习领域的最新进步,应用程序和工具。该会议以及本着名会议的培训计划涵盖了广泛的深入主题问题,如生产AI,数据科学,Python&先进的分析,深度学习技术,技术深度潜水,数据工程和 Apache Spark服务, 用例。以下是在最近关于Apache Spark的会议期间讨论的一些关键主题–具有基于云的第一级统一分析引擎 大数据分析 解决方案和DataBricks.–由Apache Spark开发商建立的公司。

databricks. Delta:  智能云备份数据管理系统

最近, Databricks通过添加新的Perk扩展其产品组合: databricks delta。建立在Apache Spark之上,Databricks Delta是 被认为是一个下一个统一的分析发动机并造成齿轮 旨在协助数据工程师简化复杂的 大规模数据管理过程。

在 现在,大多数企业都设置了他们的大数据架构 通过组合众多数据湖泊,数据仓库和流媒体 系统,显着提高了复杂性和成本 与系统集成和维护相关联。最先进的 Databricks Delta提供单个数据管理平台– unified 具有数据湖的可扩展性,数据仓库的功能,& 集成中的可靠性和低延迟直播 系统。其他版本的Databricks统一支持 分析平台,这个应用程序大大简化了建筑物, 管理和迁移数据应用程序。

除此之外,Databricks Delta还可作为智能事务存储层,可将其铺设到 AWS S3 bucket 并促进云平台上大规模的数据处理。如父母公司所申诉,Delta是一个集成的云支持平台,通过允许流媒,数据仓库,批处理和机器学习进行融合,提供出色的可扩展性和弹性。

建造 Spark平台上的数据仓库并评估它 Functionality

对数据仓库的高需求,在治理和性能方面提供高级别的优势,以及从数据湖泊的流畅数据迁移到数据仓库,反之亦然,激励的DataMricks在该领域投资了相当数量的资源。尽管基于云的Spark不是大数据世界的新概念,DataBricks即使通过在其已存在的统一分析平台中添加酸事务和可扩展的元数据,DataBricks将Delta应用于Forefront。

被认为是 作为最重要的组成部分–元数据对大多数人负责 在三角洲引擎盖下发生的任务 支持自动化和/或机器学习,如架构 匹配,数据压缩,无务部署和统计 查询优化。模式确保验证数据 进入Delta,这是任何数据最重要的功能 仓库。虽然目前的存储格式是如下 但是,按照数据统计,它很快就会 转变为开源。

这 对云支持的火花和云计算解决方案的需求是天空 high

根据DataMricks的官方来源,与内部部署和开源产品相比,对其基于云的产品的需求更有需求,因为Delta可以与HDF一起顺利使用。该公司的大多数创新与Spark相关联,其中CodeBase最初将对云配置进行测试,并随后用某些必要的修改结合到火花中。

表明短期迭代是其密集重点激发的主要原因,因为对抗内部部署,阿里Ghodsi–Databricks的首席执行官说, “使用内部部署软件,您需要等待大约2年,直到您将其滚动并获得反馈– it’s喜欢飞盲:它必须包含在下一个版本中,销售额必须出售,专业服务必须升级,然后您可以听到人们使用软件是否满意。我们现在有2周的冲刺和升级没有时间完成。”

databricks. 在Insight平台上命名为AS-A-Service的强大表演者

databricks.–大数据平台领域的最大贡献者将许多重要组成部分带入了火花中,以帮助若干与大数据合作的团队,以获取有价值的AI智能之家,包括专有扩展以及洞察平台 - AS-A-服务。与此同时,云服务提供商之间存在大量竞争,这些玩家中的每一个都提供自己的机制来处理云中的数据。例如,Qubole提供地图 - 减少作业优化,Hive和各种托管版本,Spark目前不包含在Databricks产品中。此外,其他一些平台,如传递/数据工匠,KAFTA / Confluent,拼接机和SnappyData提供了一些替代火花的功能。

什么是 Databricks的下一次移动

正如DataMricks宣布,该公司目前正在致力于深入学习和流媒体 –增长最快的大数据域。该公司旨在构建多功能API,以促进批量和流数据处理。此外,DataBricks计划开发端到端解决方案,以实现竞争优势,并在不断发展的技术世界中生存很长时间。

贡献者

Nexsoftsys的商业智能分析师

贡献者表达的意见是他们自己的意见。

关于詹姆斯华纳

Nexsoftsys的商业智能分析师

查看詹姆斯华纳的所有帖子→