第7章数据发现数据 - 各个组件及特殊考虑 - 《数据之美 : 解密优雅数据解决方案背后的故事》

各个组件及特殊考虑

智能的“数据发现数据”的环境必须包含8个最基础的组成部分：

·观察的存在和可用性；

·能够从观察中提取特征并对特征进行分类；

·能够有效地发现相关的历史背景；

·能够对新的观察做出判断（相同或相关）；

·当新的观察推翻先前的判断时，能够做出识别；

·能够积累和坚持主张；

·能够识别相关性/洞察力如何形成；

·能够通知相应实体的洞察力。

观察的存在和可用性

如果没有数据，人们就不可能会理解观察；而如果有数据，为了使这些数据某天有潜在的利用价值，那它就必须通过一些传感系统来“感应”（收集）。而且即使数据被收集，人们为了还有一线希望能够理解它，必须能够访问它。

能够从观察中提取特征并对特征进行分类

为了避免不必要的争论，我们说一粒沙子包含的用于抽取和分类的特征太少。沙粒往往具有相同的颜色、大小、重量、形状等。因此，缺少可区别的特征后期将会妨碍人们识别相同的数据（语义一致）。其要点是，为了把数据放到语境中，人们必须能够抽取和分类它的关键特征。当地址信息包含在一个列中，而姓名在另一个列中时，结构化数据是非常容易的。无结构化的数据，如新闻报纸和博客，花费的时间更多；提取正确的名字和地址是非常具有挑战性的，它通常被称为实体提取。从视频中提取特征，如为汽车拍照的读者，可以在某些情况下进行。

长话短说，人们如果想要把观察结合到上下文中，必须能够对观察的主要特征进行提取和特征分类。

能够有效地发现相关的历史背景

随着新的观察到达，抽取和分类的关键特征被用于查询上下文相关的历史数据（我们称之为持久性上下文），用来发现这些数据是否适合。为了能够实时发生，支持大体积的数据流，这种发现需求必须是极度快速的。

能够对新的观察做出判断（相同或相关）

当有新的观察根据历史数据语境化(cntextualized)时，该算法必须能够做出以下断言之一：1）新的实体，是其类型的首例（如一个新人）；2）已知的实体（如是我们已知的关于某人的观察），在这种情况下新的实体通过已有实体“分解”；3）该实体（新的实体或者是已知的实体）如何和其他实体相关。

因此，存在这样的观点，正如人们把拼图玩具拼在一起，其结论是没有什么可以做的。正是这时，人们抛弃了当前项，不管它曾经在什么位置，而且把注意力转移到下一个拼图模块（观察）。注意：可能你的最后一次判断是错误的，但是关于这一点，你不太可能会发现它，除非有新的拼图模块暴露出了这个潜在的错误。

当新的观察推翻先前的判断时，能够做出识别

有时一个观察包含新的信息，证明之前的判断必须完全推翻。可能这种新的信息证明之前认为不相同的实体实际上是相同的实体。相反地，一个新的观察可能会暴露人们之前认为相同的实体，而现在坚信它们一点都不相同（例如，新的数据点说明了我们数据库中的两个Bob Joneses不是同一个人，而实际上一个是大三的，一个是大四的）。

使用新的观察推翻先前的判断是语义一致算法最复杂的方面之一。但是如果没有这个关键特征，数据库会随着时间流逝，和真实情况越来越不相符。它的缺点是使用周期性的数据库重载来纠正这种问题。而且对于非常大的数据集，很显然这会带来可扩展性噩梦。

能够积累和坚持主张

当完成断言过程——换句话说，当新的观察被规约为断言（新的、相同的或者相关的实体），而且新的观察是用于弥补和之前相同的断言——新学到的知识必须放到数据库中，这样下一次交易可以从新的知识中受益。在某些方面，这感觉上很像最基本的增量学习系统。

能够识别相关性/洞察力如何形成

只有当新的观察应用于历史数据，这样无法保证更多的计算，该系统该“扪心自问”，“我是否学会了一些真正有用的东西？”，它和一个人不断地查看在每次放上一个拼图模块时会有什么发现很相似。

我们需要做的工作包含检测预定义的兴趣模式。例如，发现一个好人是否认识一个坏人是相关的，或者某个人每天的现金交易是否超过1万美元。

但是，新的相关性参数可以基于外部过程来设置，它可能包含人类洞察力或者次要的模式发现/数据挖掘引擎。

能够通知相应实体的洞察力

当检测到某方面的洞察，应该通知谁或者哪个系统？在我们现有的实现中，这是小事，因为每个相关性规则（比如，如果一个可能的主顾是我们的最高的50个客户的一位很亲密的同事），以及传播规律（也就是说，发送一条友好信息给赌场主人）是同时建立的。