数据分析方法与流程

数据分析方法与流程

Yiuhang Chan

分析方法

在数据分析中,分析方法是指用于从数据中提取有用信息和洞察的技术和流程。这些方法可以根据数据类型、分析目标和所需的洞察类型而有所不同。以下是一些常见的数据分析方法:

  1. 描述性分析(Descriptive Analysis):
    • 目的:描述和总结数据集的特征。
    • 方法:使用统计指标(如平均值、中位数、众数)、数据可视化(如条形图、饼图、直方图)等。
  2. 诊断性分析(Diagnostic Analysis):
    • 目的:探究数据背后的原因和关系。
    • 方法:寻找变量间的相关性和因果关系,使用例如回归分析、相关性分析等。
  3. 预测性分析(Predictive Analysis):
    • 目的:基于历史数据预测未来事件。
    • 方法:使用统计模型和机器学习算法,如线性回归、时间序列分析、随机森林等。
  4. 规范性分析(Prescriptive Analysis):
    • 目的:提出基于数据分析的行动建议。
    • 方法:运用优化和仿真技术,结合预测性分析结果提供决策支持。
  5. 探索性数据分析(Exploratory Data Analysis, EDA):
    • 目的:探索数据集以发现模式、异常、趋势等。
    • 方法:使用各种统计图表和数据可视化技术,进行初步的数据探索。
  6. 机器学习和人工智能(Machine Learning and AI):
    • 目的:利用算法自动学习和改进从数据中的洞察。
    • 方法:包括监督学习、非监督学习、强化学习等。

每种方法都有其独特的应用场景和优势,选择哪种方法取决于具体的业务问题和数据特性。

信息

  1. 分析模型:
    • 定义: 分析模型是一个框架或者结构,用来代表数据、变量之间的关系,以及这些关系如何与要研究的现象相联系。它们通常基于特定的理论或假设。
    • 举例: 如RFM模型(衡量客户价值和参与度)、AARRR模型(用户生命周期跟踪)、线性回归模型(预测数值型响应变量和解释变量之间的关系)等。
    • 特点: 分析模型通常是针对特定问题或领域设计的,如市场分析、财务预测、用户行为分析等。
  2. 分析方法:
    • 定义: 分析方法指的是一套程序或技术,用于处理和分析数据,以提取有用信息或洞察。这些方法更多关注于“如何分析”而不是“分析什么”。
    • 举例: 如描述性统计、机器学习算法、时间序列分析、探索性数据分析(EDA)等。
    • 特点: 分析方法通常是通用的,可以应用于多种不同的数据集和问题。

简单来说,分析模型是一种针对特定问题或领域的结构或框架,而分析方法则是处理和分析数据的一套技术或程序。在实际应用中,通常会将合适的分析方法应用于特定的分析模型,以解决具体的业务问题或实现数据洞察的目标。

RFM 模型

RFM模型更多地与描述性和诊断性分析相关,重点在于理解和分析现有客户的行为模式

这三项数据成为了衡量客户价值和客户创利能力的重要工具和手段。也是 RFM 模型的三个重要指标:

  • Recency (最近性): 衡量客户最后一次购买或交互的时间。越近的行为通常意味着更高的再次购买或互动的可能性。
  • Frequency (频率): 衡量客户在特定时间内的购买或互动次数。频率越高,表明客户越忠诚。
  • Monetary Value (金钱价值): 衡量客户在一段时间内为公司带来的总收入。较高的消费总额通常指示出更有价值的客户。

个指标针对的业务不同,定义也会有所不同。但是无论是什么业务,各指标都有如下的特征:

1)最近一次消费时间间隔(R):上一次消费时间离现在越近,再次消费的几率越大。即 R 值越小,用户的活跃度越大,用户的价值就越高;

2)消费频率(F):购买频率越高,说明用户对品牌产生一定的信任和情感维系。即 F 值越大,用户的忠诚度就越大,用户的价值就越高;

3)消费金额(M):消费金额越高,说明用户对产品的购买力越大。即 M 值越大,用户的购买力就越大,用户的价值就越高。

RFM 模型的作用

RFM模型的作用主要包括:

  • 客户细分:帮助企业区分不同价值的客户,以便更有效地定位和沟通。
  • 个性化营销:根据客户的RFM评分,实施更有针对性的营销策略。
  • 提高客户忠诚度:识别忠诚客户,从而采取措施提高他们的满意度和留存率。
  • 预测客户行为:通过分析历史购买数据,预测客户未来的购买行为和潜在价值。
  • 资源优化分配:确保营销资源更集中地投入到最有价值的客户群体。

总的来说,RFM模型是帮助企业更好地理解和服务其客户群体的强大工具。通过精准的客户细分,企业可以更有效地分配营销资源,提高客户满意度和忠诚度,从而增加收入和盈利能力。

RFM 模型的构建流程

计算 R、F、M 的值
根据 RFM 的阈值,对用户进行分类

1)给 R、F、M 各值按价值划分打分区间

这里需要注意的是,我们不是按指标的数值大小打分,而是对指标的价值打分。像最近一次消费时间间隔(R),消费时间间隔最近,即 R 值越小,用户的价值越高,反之,用户的价值越低。

2)计算价值的平均值

打完分数后,分别计算 R、F、M 各打分值的平均值,结果如下:

3)用户分类

最后,我们将两个用户的 RFM 值与各值的平均值进行对比。

如果一行里的 R 值打分大于平均值,就标记该行的 R 值打分为“高”,反之标记为“低”。F、M 值亦是同理。

再将标记好的 RFM 高低值与用户分类规则表进行对比,可以得出用户属于哪种类别。

小结

注意

划分 RFM 的“高低”值,关键是找到划分的阈值。分析目标的不同,所选择的分析方法也可能不同。上面的例子中,我们为 RFM 各值进行分区域评分,再计算各评分值的平均值来得到阈值。

RFM总结

关联分析

关联分析(Association Analysis)是数据挖掘的一个重要方面,主要用于发现在大型数据集中不同项之间的有意义的关联或规律。这种分析尤其在市场篮子分析(Market Basket Analysis)中广泛应用,但其应用范围远不止于此。以下是关联分析的一些关键点:

  1. 核心概念:
    • 项集(Itemset): 数据集中的一个或多个项目的组合。
    • 支持度(Support): 在所有事务中某个项集出现的频率。
    • 置信度(Confidence): 一个项集的出现在另一个项集已经出现的条件下的条件概率。
    • 提升度(Lift): 衡量两个项集的关联强度,即项集A的出现对项集B出现概率的影响。
  2. 常用算法:
    • Apriori算法: 一种经典的关联规则挖掘算法,通过迭代方式寻找频繁项集。
    • FP-Growth算法: 一种有效的频繁项集挖掘方法,使用FP树结构来压缩数据集,效率高于Apriori算法。
  3. 应用实例:
    • 市场篮子分析: 在零售业中分析哪些商品经常一起被购买。
    • 推荐系统: 根据用户过去的购买行为或喜好推荐商品或内容。
    • 交叉销售和促销策略: 确定哪些产品应该一起展示或促销。
    • 医疗数据分析: 在医疗数据中寻找疾病和症状之间的关联。
  4. 挑战:
    • 大数据量处理: 在大数据集上进行关联分析可能非常耗时。
    • 生成规则的质量: 生成的规则数量可能非常庞大,且不是所有规则都有实际意义或价值。
    • 误解和错误的因果关系: 强关联不一定意味着因果关系。

关联分析在为商业决策提供数据支持方面发挥着重要作用,能够帮助企业更好地理解客户行为,并据此优化产品布局和营销策略。

流程

数据集

现在手里有一份快餐店的用户交易数据:

如图所示:用户1001用户购买了【薯条、可乐】等2类商品,用户1002用户购买了【薯条、可乐、奶茶】等3类商品,以此类推,1004用户购买了汉堡、可乐】2类商品等

基于这份数据,我会向快餐店老板提出建议,推出薯条和奶茶的组合套餐。因为我发现购买奶茶的用户,有很大概率会加购薯条,发现的过程如下:

从那份只有4条数据的交易数据入手,它有点像购物小票。交易数据记录了用户的单次消费行为,即交易记录,如1001号订单,意思是某用户一次性购买了两种(非数量)食品:薯条、可乐。

事物

而每条交易记录又可称为一个事务。所以,这份交易数据一共含有4条“事务”

即1001用户购买了【薯条、可乐】,这是一次事务;1002用户购买了【薯条、可乐、奶茶】这是两次事务,以此类推,

1004用户购买了【汉堡、可乐】这是第四次事务。

交易中的不同物品可称为一个项。

比如说,这4条交易记录,商品类目去重后,一共含有4个项(商品类目):{“薯条”,“可乐”,“奶茶”,“汉堡”}

项集
  • 0个或多个项的集合,可称为一个项集,一般用{X}的形式表示项集,k 个项组成的项集, 叫 k 项集
  • 如{薯条,可乐},有两项,看见花括号就是集合,所以是2 项集,在比如{薯条},有1 项,看见花括号就是集合,所以是1项集
  • 前面的4项商品,可以相互组成15个项集,项集内不存在相同的项,如{奶茶,薯条,薯条}。
支持度
  • {X}的支持度 = {X}在事务中出现的次数 / 事务总数。
  • 事务总数在上面已经讲到,就说每条交易记录又可称为一个事务。所以,这份交易数据一共含有4条“事务”
  • 即1001用户购买了【薯条、可乐】,这是一次事务;1002用户购买了【薯条、可乐、奶茶】这是两次事务,以此类推,
  • 1004用户购买了【汉堡、可乐】这是第四次事务。随意X的支持度的分母/事务总数就是4,薯条和奶茶同时出现在一块儿的购买商品
  • 在1002的订单号里,其他的订单号没有同时出现【薯条、奶茶】的身影,所以分子/{薯条、奶茶}出现的次数就是1,1除以4 =1/4等于0.25
频繁项集
  • 此时,我们需要人为地设定一个支持度,名为最小支持度,用于筛掉那些不符合需求的项集。
  • 比如4 项集:{可乐,汉堡,奶茶,薯条}就不符合需求,比如说,给个超参数0.2,小于0.2的支持度过滤掉,大于等0.2的保留
  • 被留下来的项集(≥ 最小支持度),被称为频繁项集。
关联规则
  • 有了频繁项集,就可以生产关联规则了。
  • 关联分析是探索数据之间联系的技术,而数据之间的联系,我们用关联规则来表示,表达式为:{X}→{Y}(X 和 Y 之间不存在相同项)。
  • X项集和Y项集之间存在哪种关联规则有顺序之分,为了方便描述,我们把规则前面的项集叫前件,把规则后面的项集叫后件。
  • 假设有频繁项集 {奶茶,薯条},它可以生成2条关联规则:{薯条}→{奶茶}和{奶茶}→{薯条}。前者的意思是,购买“薯条”的顾客,和购买“奶茶”之间,可能存在有某种联系;同理可得,后者的意思是,购买“奶茶”的顾客,和购买“薯条”之间,可能存在有某种联系
置信度
  • 置信度(Confidence)可用于衡量关联规则的可靠程度,表示在前件出现的情况下,后件出现的概率。一般来说,概率越高,规则的可靠性越强。
  • 关联规则{X}→{Y}的置信度 = {X,Y}的支持度 / {X}的支持度。在上边已提到,{薯条、奶茶}支持度 = {薯条、可乐}同时出现了1次,一共有1001、1002、1003、1004等4次事务,所以{薯条、奶茶}支持度就是1/4=0.25,
  • {薯条}的支持度 = {薯条}出现在了1001,1002,1003等3次,一共有4次事务,所以{薯条}的支持度 =3/4 = 0.75
  • 最后2者一相除约等于0.33
  • 同为关联规则,可靠程度有“强”有“弱”。
  • 在实际业务中,也需要人为地设定置信度,名为最小置信度,用于筛掉一些不符合需求的关联规则。被留下来的关联规则( ≥ 最小置信度),叫做强关联规则。
提升度
  • 关联规则既有促进关系,也有抑制关系。因而,还需引入提升度(Lift)对它们进行判断。
  • {X}→{Y}的提升度 = {X}→{Y}的置信度 / {Y}的支持度,意思是评估 X 的出现,对 Y 出现的影响有多大。

小结

大多数的关联分析工作,主要任务就是生成频繁项集和关联规则。有了计算公式和流程,理论上,可以手算,不过难度可想而知:

  • 一个3项(k 项)的数据集,能产生7(2^k - 1)个非空频繁项集。
  • 一个3项(k 项)的频繁项集,可产生6(2^k - 2)个关联规则。

随着“项”的增加,频繁项集和关联规则的计算量必将呈指数增长。

而现实生活中的“项”(商品)成百上千,真实的“事务”(交易)数以万计。。提高计算效率,可以使用Apriori 算法。

  • 标题: 数据分析方法与流程
  • 作者: Yiuhang Chan
  • 创建于 : 2020-08-15 15:56:21
  • 更新于 : 2024-02-28 18:49:57
  • 链接: https://www.yiuhangblog.com/2020/08/15/20200815数据分析方法/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论