知识图的众多阴影:让我数一数

关于当前统计人工智能的复兴,最重要的发展之一就是它对知识图的重视。这些存储库由于多种原因而与当代机器学习的普遍性并驾齐驱,从它们为该技术准备训练数据集的能力到将其与AI的知识库相结合以实现完美的AI的能力。

因此,在从商务智能机制到数字资产管理平台的广泛解决方案中,图形技术已变得相当普遍。借助GraphQL之类的工具也在整个数据领域中获得认可,不足为奇的是,许多人认为知识图是塑造现代AI部署的核心技术之一。

因此,必须了解所有图表都不相等;对于知识图标题,各种图相互争夺有不同的类型和功能。由于知识图的关键功能是在检测数据元素之间的关系时使数据在系统之间可交换,因此其定义的关键方面之一是“知识图建立在本体,分类法和术语系统之上” 弗朗兹 首席执行官Jans Aasman。

“没有它,就无法获得知识图。否则,您将只有一个图形应用程序,其中人们只需为节点命名,然后将几个节点链接起来就可以了。”

理解知识图中与本体,属性,语义,元数据管理,内省,语料库等相关的构造,对于成功地以最大化AI部署的方式成功地对齐数据(从机器学习到符号推理)至关重要。

AI Time Journal资源
您正在学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家成长。

标记的属性图

根据 剑桥语义学 产品副总裁史蒂夫·萨斯菲尔德(Steve Sarsfield)过去通常只有“两种类型的知识图:RDF [资源描述框架]和标记的属性图”。 LPG是知识图谱的最基本形式,因为它们提供了数据元素之间的关系检测,但是缺乏暗示这些解决方案基础的命名法Aasman的统一性。

LPG的优势在于,它们不需要大量的前期建模数据,并且使用户能够快速添加数据属性,这对于验证,出处和机器学习可信度得分非常有用。不过,LPG并非以一致的方式来识别概念,节点和数据的含义。它们的作用是 不能在图表或组织之间共享数据的孤岛.

“使用属性图,您只能将这些属性添加到关系中,”评论 顶级象限 首席执行官艾琳(Irene Polikoff)。 “使用RDF方法,您可以将其添加到任何内容中。”

语义图

LPG通常与语义图进行对比。前者着重于节点,而后者着重于节点之间的边缘(关系)。尽管可以创建专有的语义图,但是这些数据库以RDF图为例,该图利用通用的数据标识符,词汇表和分类法标准。

这种汇合在很大程度上与数据的统一无关,而与原始点的差异无关,这对于使各种向量包含在有意义的机器学习部署中是非常有益的。语义知识图擅长的特定应用包括:

  • 数据工程: 知识图在将潜水者数据组合到用于构建机器学习模型的通用数据模型中起着关键作用。根据 知识输出 首席执行官Digvijay Lamba表示,“知识图实际上就是AI进行映射的方式”,以将不同的数据转换为统一的模型。在此用例中,知识图将机器学习算法映射到通用模型的不同数据概念对齐,从而大大减少了为数据科学处理数据所需的工作。
  • RDF *: 新兴的RDF *标准是LPG和RDF的混合体,使后者能够在基于标准的环境中迅速包含属性。当使用机器学习进行数据管理时,例如为合规性添加标签或对文档进行分类,则必须添加有关置信度或概率的描述符,因为“这不仅仅是一个人在说什么;它还只是在说些什么。 “这是计算机想出的东西,”波利科夫说。 “您可能希望保持这种可能性或与根本原因的联系。”
  • 内省: 语义知识图是 在AI空间内倍受珍视 他们对提问的偏爱,这对于支持自然语言技术应用非常有用。 顶级象限首席技术官Ralph Hodgson提到:“内省的想法是知识图可以告诉您它所知道的。” “你可以问它你对此有什么了解。”根据霍奇森(Hodgson)的观点,属性图不支持即席提问;关系技术也不支持它。

分类法,词汇

内省的霍奇森暗含的是对 知识图中对齐的不同实体。正如Aasman所说,“世界很大:在建立有用的知识图之前,您需要同意很多概念。”

词汇表定义了知识图中使用的术语,而“分类法也是知识图中的特殊部分,因为它们将图用作模型并具有组织性,层次性的概念,” Polikoff解释说。词汇和分类法构成了Aasman所指术语系统的基础,使组织能够指定用于数据中表示的各个实体的词。

Polikoff暗指的知识图的这一方面有时本身被认为是一种知识图,它在这些工具“包含不同事物的所有不同同义词,例如如何表达不同事物的能力”的能力中起着至关重要的作用。 Lamda表示。同意该术语是这些图形回答问题和进行机器推理的能力的基础。

本体论

本体是知识图的另一个子集,它通过“为知识图中的其余数据提供模式,结构和规则”来补充分类法。霍奇森认为,本体论的范围包括Lamda所谓的“通用数据模型”的基础知识,以及与“复杂特性和公理”有关的更广泛的应用程序,它们[本体论]代表了领域的知识。 。尽管本体具有共享的建模功能,但后一个应用程序对于复杂的AI部署至关重要。

尽管如此,这些功能仍负责协调所有数据以进行推理和 机器学习。 Aasman回忆了一个用例,在该用例中,大型医院系统利用分类法和本体论来统一来自各地的“患者数据,无论是在数据仓库中,还是在独立的ICU中,以各种方式通过HL7 [Health Level 7”流。”然后,医疗保健提供者可以在结果的患者实体树上运行机器学习,或使用它们来构建更复杂的AI模型。

语料库

根据Polikoff所说,语料库是“另一种图形……它是文档或跨文档的实例。”知识图语料库是一种通过外部资源强化企业知识的方法。

这些工作还包括Polikoff所谓的涉及元数据的数据资产集合。这些语料对于知识图的丰富倾向至关重要 认知计算的努力,例如推理,是机器智能的基本特征之一。

Aasman指出,在协调各种患者数据以进行“推理时,您需要将患者数据与生命科学生物学知识相结合进行推理”。在这种情况下,语料库将包括医学期刊或研究报告中的知识。知识图可以包含此信息,以进行智能推理,这些推理可以通过推理(或组合)其他事实来推导新事实,从而增强了机器智能。

访问图

成就知识图的通用标准对于共享信息非常宝贵。通过基于标准化术语和数据模型统一数据的含义,可以通过将其他知识图中的知识图谱合并进来来扩大知识图谱。在整个企业范围内,此功能使不同部门(销售,市场,研究与开发等)可以通过对每个相关数据进行全面分析或推理,从彼此的图表中获利。

在这些情况下,企业可以利用访问图“将这些图组合在一起”,霍奇森透露。但是,在某些情况下,如果没有特定的安全性或治理许可,某些用户不应该查看某些数据,“您可以将访问图放在另一个图的顶部,该图将具有 化身 霍奇森说。

元数据及更多

知识图谱的扩展范围不仅限于属性图和语义图。尽管大多数知识图都涉及这两种方法之一(或它们的混合体RDF *),但这些平台也由不同类型的子图组成,这些子图用作其功能的组件或应用程序。本体,分类法,语料库和访问图都是知识图框架内这些子图类型的所有示例,这些子图类型可针对单个用例(例如训练机器学习模型)对齐不同的数据。

正如Polikoff所暗示的那样,该技术的另一个常见应用是用于元数据图。这些图有助于在复杂的混合和多云环境中进行复杂的网络监视,在这种环境中,用户可以观察有关虚拟机,单个应用程序,数据库及其管道功能的元数据。 Aasman指出,这样的图形可用于部署“机器学习,根据机器,应用程序和负载中当前正在运行的进程的一系列特征,开始预测将关闭的机器或VM。”

Image Credits
Featured Image: Unsplash

贡献者

耶拉尼·哈珀(Jelani Harper)是为信息技术市场服务的编辑顾问。他专门研究数据驱动的应用程序,重点是语义技术,数据治理和分析。

贡献者表达的观点是他们自己的观点。

关于耶拉尼·哈珀(Jelani Harper)

耶拉尼·哈珀(Jelani Harper)是为信息技术市场服务的编辑顾问。他专门研究数据驱动的应用程序,重点是语义技术,数据治理和分析。

查看Jelani Harper的所有帖子→