组织现在可以访问的数据比以前任何时候都多。然而,由于信息量巨大,因此理解海量的结构化和非结构化数据以实施组织范围的改进可能非常具有挑战性。如果不正确解决,这一挑战可以最大限度地减少所有数据带来的好处。
数据挖掘是组织检测数据中的模式以获得与其业务需求
相关的见解的过程。它对于商业智能和数据科学都是必不可少的。组织可以使用许多数据挖掘技术将原始数据转化为可操作的见解。这些涉及从尖端人工智能到数据准备基础的一切,这两个方面都是最大化数据价值的关键。
01
数据清理和准备
数据清理和准备是数据挖掘过程的重要组成部分。原始数据必须进行清理和格式化,以便在不同的分析方法中使用。数据清理和准备包括数据建模、转换、数据迁移、ETL、ELT、数据集成和聚合的不同元素。这是理解数据的基本特征和属性以确定其最佳使用的必要步骤。
数据清理和准备的业务价值是不言而喻的。没有这第一步,数据要么对组织没有意义,要么由于其质量而不可靠。公司必须能够信任其数据、分析结果以及根据这些结果创建的行动。
这些步骤对于数据质量和适当的数据治理也是必要的。
02
跟踪模式
跟踪模式是一种基本的数据挖掘技术。它涉及识别和监控数据中的趋势或模式,以对业务成果进行智能推断。例如,一旦组织确定了销售数据中的趋势,就有了采取行动利用该洞察力的基础。如果确定某个产品在特定人群中的销量高于其他产品,则组织可以使用此知识来创建类似的产品或服务,或者只是更好地为该人群存储原始产品。
03
分类
分类数据挖掘技术涉及分析与不同类型的数据关联的各种属性。一旦组织确定了这些数据类型的主要特征,组织就可以对相关数据进行分类。这样做对于识别(例如)组织可能希望保护或编辑文档的个人可识别信息至关重要。
04
关联
关联是一种与统计学相关的数据挖掘技术。它指示某些数据(或在数据中发现的事件)链接到其他数据或数据驱动事件。它类似于机器学习中的共现概念,其中一个数据驱动事件的可能性由另一个事件的存在表示。
相关性的统计概念也类似于关联的概念。这意味着对数据的分析表明,两个数据事件之间存在关系:例如,购买汉堡经常伴随着购买薯条。
05
异常检测
异常检测确定数据集中的任何异常。一旦组织发现其数据中的异常,就很容易理解为什么会发生这些异常,并为将来的任何事件做好准备,以最好地实现业务目标。例如,如果在一天中的某个时间信用卡交易系统的使用量激增,组织可以通过找出为什么在一天的其余时间优化其销售来利用这一信息。
06
聚类
聚类是一种分析技术,它依赖于理解数据的可视化方法。聚类机制使用图形来显示数据分布与不同类型的度量的关系。聚类技术还使用不同的颜色来显示数据的分布。
图形方法是使用集群分析的理想方法。特别是使用图和集群,用户可以直观地看到数据是如何分布的,以确定与其业务目标相关的趋势。
07
回归
聚类是一种分析技术,它依赖于理解数据的可视化方法。聚类机制使用图形来显示数据分布与不同类型的度量的关系。聚类技术还使用不同的颜色来显示数据的分布。
图形方法是使用集群分析的理想方法。特别是使用图和集群,用户可以直观地看到数据是如何分布的,以确定与其业务目标相关的趋势。
08
预测
预测是数据挖掘的一个非常强大的方面,它代表了分析的四个分支之一。预测分析使用在当前或历史数据中发现的模式来将其扩展到未来。因此,它使组织能够洞察其数据中的下一个趋势。使用预测分析有几种不同的方法。一些更先进的涉及机器学习和人工智能的方面。然而,预测分析并不一定依赖于这些技术——它也可以用更直接的算法来促进。
09
顺序图案
这种数据挖掘技术专注于发现按顺序发生的一系列事件。它对于事务数据的数据挖掘特别有用。例如,这项技术可以揭示消费者在初次购买(例如,一双鞋)后更有可能购买的衣服项目。理解顺序模式可以帮助组织向客户推荐其他项目以刺激销售。
10
决策树
决策树是一种特定类型的预测模型,使组织能够有效地挖掘数据。从技术上讲,决策树是机器学习的一部分,但由于其极其简单的性质,它被更普遍地称为白盒机器学习技术。
决策树使用户能够清楚地理解数据输入如何影响输出。当组合各种决策树模型时,它们会创建称为随机森林的预测分析模型。复杂的随机森林模型被认为是黑盒机器学习技术,因为根据它们的输入来理解它们的输出并不总是容易的。然而,在大多数情况下,这种基本形式的集成建模比单独使用决策树更准确。
11
统计技术
统计技术是数据挖掘过程中涉及的大多数分析的核心。不同的分析模型基于统计概念,这些概念输出适用于特定业务目标的数值。例如,在图像识别系统中,神经网络使用基于不同权重和度量的复杂统计来确定图片是狗还是猫。
统计模型是人工智能的两个主要分支之一。一些统计技术的模型是静态的,而其他涉及机器学习的模型则随着时间的推移而变得更好。
12
可视化
数据可视化是数据挖掘的另一个重要元素。它们允许用户根据人们可以看到的感官感知来洞察数据。今天的数据可视化是动态的,对于实时流数据很有用,并且具有不同的颜色,这些颜色揭示了数据中的不同趋势和模式。
仪表板是一种使用数据可视化来揭示数据挖掘见解的强大方法。组织可以将仪表板基于不同的度量,并使用可视化来直观地突出显示数据中的模式,而不是简单地使用统计模型的数字输出。
13
神经网络
神经网络是一种特定类型的机器学习模型,通常与人工智能和深度学习一起使用。神经网络因其具有类似于人类大脑中神经元工作方式的不同层而得名,是当今使用的更准确的机器学习模型之一。
尽管神经网络可以是数据挖掘中的强大工具,但组织在使用它时应该谨慎:其中一些神经网络模型非常复杂,这使得很难理解神经网络如何确定输出。
14
数据仓库
数据仓库是数据挖掘过程的重要组成部分。传统上,数据仓库涉及将结构化数据存储在关系数据库管理系统中,以便对其进行商业智能、报告和基本仪表板功能的分析。今天,在半结构化和非结构化数据存储(如Hadoop)中有云数据仓库和数据仓库。虽然数据仓库传统上用于历史数据,但许多现代方法可以提供对数据的深入、实时分析。
15
长期记忆处理
长期记忆处理是指在长时间内分析数据的能力。存储在数据仓库中的历史数据对此非常有用。当一个组织可以在一段较长的时间内执行分析时,它能够识别模式,否则这些模式可能太微妙而无法检测。例如,通过分析几年内的人员流失,组织可能会发现一些微妙的线索,这些线索可能会导致减少财务流失。
16
机器学习和人工智能
机器学习和人工智能(AI)代表了数据挖掘领域的一些最先进的发展。深度学习等高级形式的机器学习在处理大规模数据时提供高度准确的预测。因此,它们对于处理人工智能部署中的数据非常有用,如计算机视觉、语音识别或使用自然语言处理的复杂文本分析。这些数据挖掘技术有助于从半结构化和非结构化数据中确定价值。
进行数据挖掘技术优化
由于在数据挖掘过程中使用了广泛的技术,因此技术人员具备全面的分析技术至关重要。通常,技术人员需要掌握多种工具的使用才能正确执行一系列的数据整理任务。
尽管组织可以使用数据科学工具进行机器学习分析,但确保数据治理工具的合规性和适当的数据衍生非常重要。此外,执行分析以及仪表板和数据可视化,为业务用户提供理解分析所需的信息也至关重要。