非结构化数据最近成为一个非常流行的话题,因为许多大数据源都是非结构化的。然而,一个重要的细微差别经常被忽视——事实上,几乎没有分析直接分析非结构化数据。 非结构化数据可能是分析过程的输入,但是当需要进行任何实际分析时,非结构化数据本身并没有被利用。“怎么可能?” 你问。让我解释… 非结构化数据最近成为一个非常流行的话题,因为许多大数据源都是非结构化的。然而,一个重要的细微差别经常被忽视——事实上,几乎没有分析直接分析非结构化数据。 更多阅读 文本挖掘 可扩展数据解决方案的文本挖掘策略和局限性 理解和分析非结构化数据集的隐藏结构 结构化和非结构化数据快速指南 大数据的 7 种重要类型 谈判云合同的 7 个关键术语 非结构化数据可能是分析过程的输入,但是当需要进行任何实际分析时,非结构化数据本身并没有被利用。
怎么可能你问让我解释
我们先从指纹匹配的例子开始。如果你看《犯罪现场调查》这样的节目,你会发现它们总是匹配指纹。指纹图像完全是非结构化的,如果图像质量很高的话,其尺寸也可能相当大。那么,当电视上或现实生活中的警察去比对指纹时,他们会比对实际图像来找到匹配吗?不会。他们首先会在每张印刷品上确定 塞浦路斯手机号码列表 组重要点。然后,根据这些点创建地图或多边形。实际匹配的是根据打印创建的地图或多边形。 更重要的是,地图或多边形是完全结构化的并且尺寸很小,尽管原始打印不是这样。虽然非结构化打印是该过程的输入,但匹配它们的实际分析并不使用非结构化图像,而是使用从中提取的结构化信息。 每个人都会欣赏的一个例子是文本分析。让我们考虑一下现在流行的社交媒体情绪分析方法。是否直接分析推文、Facebook 帖子和其他社交评论以确定他们的情绪?并不真地。
文本被解析为单词或短语
然后这些单词和短语被标记为好或坏。 在一个简单的例子中,也许“好”词得到“坏”词得到性”词得到。帖子的情绪由单个单词或短语得分的总和决定。因此,情绪分数本身是根据完全结构化的数字数据创建的,这些数据源自最初的非结构化源文本。对情绪趋势或模式的任何进一步分析完全基于文本的结构 DJ 美国 化数字摘要,而不是文本本身。 同样的逻辑适用于所有领域。如果您要构建倾向模型来预测客户行为,则必须将非结构化数据转换为结构化的数字提取。这就是绝大多数分析算法所需要的。可以说,从非结构化源中提取结构化信息本身就是一种分析形式。然而,我的观点很简单,最终的分析,即开始获取非结构化数据的过程,并不使用非结构化数据。它使用从中提取的结构化信息。这是一个重要的细微差别。