Anders Wang


我所认识的每个人都是榜样,都有值得我去尊敬和学习的地方。


淘宝用户购物之探索性可视化分析及业务指标分类

什么是描述统计学

描述是指对现有数据的总结和提炼,原始数据是杂乱无章的,所以将原始数据通过某种形式浓缩成一个有意义的统计量,比如通过图表形式对所收集的数据进行加工处理和显示;或将一系列复杂的数据序列减少为几个能够起到描述作用的数字(比如一套多难度复杂的体育动作浓缩为9.8分)。但是任何一种简化都会面临被滥用的危险。

在对任何数据做分析时有个前提,那必然是在拿到数据后,结合业务对数据做一个充分了解,我所拥有的数据是来自淘宝的购买商品 与 婴儿信息 两个数据集。

接下来要对淘宝婴儿的商品数据集做探索性数据分析(EDA),EDA对于数据分析是十分重要的环节,很多新手在拿到数据的第一刻就急冲冲的开始套用各种分析方法紧接着生成一个好看的统计图表,可最终到分析报告时也没有得出个值得的分析结果。而仅仅是对现有粗糙数据的一个“表现”统计而已。

既然是EDA那么对数据分析的过程中先尽量不考虑任何理论先验假设,而是做一些初步的数据探索,比如是否存在缺失值,异常值,查找数据结构和规律等,这样在探索的过程中会随着不断的深入对数据理解更加深刻,也方便后续进一步开始更深入数据分析。

这里我使用Excel工具来对数据进行EDA,这里使用的数据依然是前篇提到的淘宝用户购买婴儿用品的数据集,来源于:Baby Goods Info Data。

数据探索

数据列重命名

考虑到原始数据集都是英文字段也没有对应的信息,为了方便后续的分析展现和理解,这里做了一份副本复制,并对数据集里的数据列标题进行中文重命名。

检查是否有缺失值与重复值

重复值检查:从实际业务角度考虑,由于这是用户购买的数据记录,那么不同时间段相同用户存在相同的购物记录也是合情合理的,所以这里就不做重复值的检查了。

缺失值检查:我发现在商品属性里缺少了144条数值,均为空白值,但是考虑到拿到的数据集目前商品属性没有对应的信息说明,暂时也用不到我先将他隐藏起来。

统一日期格式

由于两个数据集里都包含有日期字段,而且类型为 常规 类型。这里使用excel中 【数据】-->【分列】-->【日期】 功能将原始常规类型转换为统一的日期格式。

多表关联

表2婴儿信息表中含有 生日日期 与 性别 字段,可以使用vlookup函数把这两个字段关联到表1购买商品信息表中,这样让数据集产生关联性就可以得到更多的数据信息。

由于性别里有些是空值或者属于未知性别(数值为2),所以将它们进行筛选剔除,对应的生日日期也显示正常了。

现在,在表1中关联合并中都包含了生日日期与购买时间,思考下就想到了,利用这两个字段的数据可以计算在用户购买商品时他们的婴儿年龄是多少,只需要用【购买时间】减去【生日日期】就可以得到了。所以我添加 【年龄】字段,使用DATEDIF(startdate,enddate,unit)函数来计算两个日期的时间,也就是(生日日期,购买时间,"M"),这里的M代表以月龄来计算,因为考虑到婴儿年龄一般都不大,可能会出现很多0岁的情况。但是可能会遇到一种情况就是用户在购买婴儿商品的时候,婴儿也存在还没出生的情况。所以当我使用如上时间计算月龄的时候就遇到了部分错误值,这里还需要使用IFERROR函数对错误值做一个替换,将错误值统一解释标记为”未出生“,使用方法是输入函数【=IFERROR(DATEDIF(H2,F2,"m"),"未出生")】。

分析数据结构和构建模型

基本的数据清洗都完成了,接下来可以使用数据透视表来进行一进步的统计分析观察。

哪个季度是销售旺季?

不同婴儿性别的家庭,用户购买的销量是否有显著差别?

在整理数据后,通过数据和数据之间的关系得到了更多新的信息,接下来也会从可视化角度去展现这些问题的答案。

淘宝婴儿商品数据之图表可视化

一、不同婴儿性别的家庭中,用户购买的二级商品最受欢迎的前10商品?

从下图可以发现,从上往下看商品 50018831 至 50011993 是最总计排名最高的最受欢迎十项商品,并且可以发现相比较之下拥有女性婴儿的家庭购买这些物品的比例最高。

二、购买这些商品的用户的婴儿性别占比

可以很直观的发现拥有女性婴儿家庭的用户占了购买商品的大部分,可能某些商品更受女性婴儿家庭欢迎。

三、四个季节的销售情况

可以非常直观的看到第四季度销售情况最好,该季自然也就是销售旺季。

四、一年中每个月的销售分布情况

从如下折线图中可以发现一年中明显销售火爆的月份是5月份与11月份。

五、TOP5购物最多的用户排行 这五位用户359601689、259538915、917524288、299196791、486110123是所有数据中购物最多的前5名。

数据分析之业务指标

对于互联网产品数据分析师来说,搭建指标体系可以很好的梳理业务关系,提高问题分析效率。本篇是对业务数据指标以及各指标能解决的相关问题做一个梳理和案例分析。6

常见的指标有哪些?分别有什么用?

在理解指标有哪些时,先要明白什么是指标,指标就是用某个统一标准去衡量业务,这个统一标准就是指标,通常是数值或者比率

在不同的业务场景中有不同的数据指标和对指标的表达,但是经过高度抽象化,有几大类数据指标是所有类型应用共同分析的需要和参考。如下我用思维导图罗列几个常见的数据指标为:用户指标、行为指标、产品指标。

案例1:淘宝婴儿商品数据的 业务指标分类 以及 对应指标能解决的问题

这里使用上面提到的 淘宝婴儿商品数据集 进行业务指标分析,该数据包一共有2个数据表,我们将对该数据集进行指标分类和对不同数据指标解决的问题做一个说明。

一、淘宝婴儿商品数据 业务指标分类

按照之前罗列的几种常见业务指标对该数据集每列字段进行大分类,如下:

用户数据:用户id、出生日期、婴儿性别 行为数据:购买数量、购买时间 产品数据:商品id、商品属性、商品一级分类、产品二级分类

二、对应的业务指标能解决哪些问题

如上已经按照 淘宝婴儿商品 数据表中的字段大致分了3大类型数据指标,分别为:用户数据、行为数据、产品数据,这几大类数据指标中分别有不同的指标可以解决一些问题,如下:

  • 用户数据:用户id、出生日期、婴儿性别

1.「新增用户」指标,可以知道网站每日新增长用户。
2.「留存率」指标,可以计算某时间段内的一批用户是否依然还保持访问网站(即使是每日签到打卡),以此观察网站对用户的粘贴性强弱。
3.「活跃用户率」指标,可以用于统计不同时间段内,访问网站的人数净值(去重复)占总用户数的比率,对于在网站的任何操作、停留时长等都可以统计为活跃用户范围,该比率比「留存率」更凸显网站的健康度和质量。
因为针对的婴儿商品,可以统计来自不同婴儿性别的用户比率比重,以此增加对应性别比重的产品,增大销量。

  • 行为数据:购买数量、购买时间

1.通过用户购买商品的数量和购买时间排行可以观察出哪些时间段是销售旺季,以及用户青睐哪些商品。
产品数据:商品id、商品属性、商品一级分类、产品二级分类 「成交数量」指标,可以分析哪些一级或二级商品种类是被用户购买最多的。

案例2:喜马拉雅app是如何根据业务来选择指标,进行数据分析的?

对于互联网产品数据分析师来说,搭建指标体系可以很好的梳理业务关系,提高问题分析效率。确立关键指标(北极星指标),是统一各团队的努力方向。

如下是对喜马拉雅app的一个业务指标体系罗列。

最近的文章

蒙特卡洛方法求π值的可视化

什么是蒙特卡洛 蒙特卡络不是一个人名,而是一个地名,因摩纳哥著名的赌场而得名,而该方法的提出者是大名鼎鼎的数学家冯·诺伊曼(现代计算机之父)。 蒙特卡洛(Monte Carlo)方法,又称为随机抽样或…

技术博文, 数据分析, Python详细阅读
更早的文章

生日悖论的可视化分析

什么是生日悖论 生日悖论(Birthday paradox)是指假设一个班级有50个人,如果说在这个班级里概率大到可以肯定的说至少有2个人的生日相同(当然这里还不包括双胞胎,不包括闰年2月29日的情况…

Python, 数据分析, 技术博文详细阅读
comments powered by Disqus