0%

数据可视化入门

案例描述:

  • 邓老师是夜曲中学初一年级的年级主任,上个月期末考试后,他收集了4个班:文科(语文+英语),理科(数学+物理)的考试成绩。

    他打算通过分析月考的情况,制定下个月的教学策略。

    img

  • 总分和平均分

    根据以往的经验,他先计算各个班的总分和平均分,了解各班成绩的总体情况。

    非常巧合的是:每个班语文+英语的总分都是990,平均分为90.00。

    数学+物理的总分约为825.1,平均分约为75.01。那是不是这4个班的成绩就差不多了呢?

  • 波动情况

    邓老师正纳闷,旁边的唐老师见状,凑近一看说:“邓老师,你这个方法会有误差哦。”

    “虽然各个班的平均分差不多,但很可能情况不一样:比如有的班成绩特别好和成绩特别差的都比较多,波动很大。有的班成绩都比较平均,差距不大。

    这样两个班的情况就会非常不同了,教学策略也会不一样。”

    “那我要怎么计算成绩的波动呢?”邓老师很好奇。

    “其实你可以用标准差来计算成绩的波动幅度,标准差的值越高说明成绩波动越大。”唐老师建议到。

  • 邓老师在唐老师的建议下,计算出了各个班的标准差,却吃惊地发现:

    咦?各个班的文科成绩和理科成绩的标准差竟然也差不多。看来各个班的成绩波动也都是相似的。

  • 邓老师还有一个猜测:会不会这几个班成绩差不多,但是偏科比较严重呢?比如有的班文科成绩特别好,理科成绩特别不好。

    张老师路过,听到了他们的讨论,忍不住说:“试试计算一下相关系数呢,如果相关系数越高,说明文科成绩和理科成绩的关联度比较高,也就是文科成绩好,理科成绩也比较好,如果相关系数很低,那就可能是偏科很严重,文科成绩好但理科成绩很差。”

  • 邓老师经过一通计算,又得出一个非常震惊的结果:

    每个班级文科(语文+英语)和理科(数学+物理)的相关系数都是0.82。

    不仅不偏科,水平几乎完全一样。

  • 有了这几份统计学数据作支撑,邓老师立即决定下个月1,2,3,4班的都设定相同的教学提升计划。

    教学总监看到这份计划,有些疑惑,建议邓老师将学生成绩画出图表来仔细分析。没想到,图表显示的结果。。。。。完全不相同!

    1班的成绩比较分散,有波动。

    2班成绩分布呈抛物线趋势。

    3班成绩几乎都是线性分布,有一位同学的文科成绩非常高。

    而4班的成绩更为神奇,10位同学的文科成绩几乎都相同,只有一位同学特别出类拔萃。

    幸好通过图表发现了数据的异常,如果只是迷信数据分析的结果,给出的教学计划显然是不合理的。

  • 安斯科姆四重奏

    其实刚刚那组数据并不是邓老师统计的,而是统计学家弗朗西斯·安斯库姆(Francis Anscombe),在1973年构造的。

    这位统计学家在和数据打了很多年交道后发现,仅仅依赖概括性统计度量,可能具有误导性,而挖掘数据的视觉模式,趋势和异常值反而更加重要。

    于是构造了这组统计特性一致,绘制出的图表则截然不同的数据,让大家了解数据可视化的重要性。

  • 彩蛋

    除此之外,美国迈阿密大学教授Alberto Cairo也曾构造了一组统计学意义上相同,画出来的图表完全不同的数据,如图所示,是不是很神奇呢?

    img

选择图表

  • 数据可视化如此重要,学会制作严谨而科学的图表就显得非常重要了。

    今天咱们先迈出数据可视化的第一步:选择图表。

    在不同的场景中,我们所得到的数据不同,想要获取的信息不同,所以选择的图表也不同。

    根据数据关系图表可以分为:比较、趋势、构成、联系四种类型。

    接下来我们将针对这四种类型的数据关系,来介绍每种关系下常见的图表类型。

    img

比较-柱状图

  • 定义:柱状图,又称长条图、柱形图,是一种以长方形的长度为变量的统计图表。

  • 应用:柱状图能够反应数据间的差异,一般用来进行分类项目间的比较。

    注意:柱状图仅适用于中小规模数据集,超过10个就不建议使用哦。

    img

比较—条形图

  • 定义:条形图(bar chart)简单来说就是横着排列的柱状图。

  • 应用:条形图和柱状图都可以进行数据间的比较,不过当数据较多,比如超过10项时,需要使用条形图。

    例如:2020年全球30个国家的GDP对比。

    img

趋势-折线图

  • 定义:以折线的上升或下降来表示统计数量的增减变化的统计图,叫作折线统计图。

    应用:折线图可以显示随时间而变化的连续数据,非常适用于显示在相等时间间隔下数据的趋势。

    img

趋势—平滑折线图

  • 定义:平滑折线图是显示随时间而变化的连续数据,主要用于反应数据的整体趋势。
  • 应用:如果时间跨度大或者数据波动比较大时,可以使用平滑折线图,因为此时使用折线图显得较乱,光滑折线图则比较清晰。
  • img

构成—饼图

  • 定义:饼图,是一个划分为几个扇形的圆形统计图表,用于描述量、频率或百分比之间的相对关系。

  • 应用:在需要描述某一部分占总体的百分比时,适合使用饼图。

    例如:占据公司全部资金一半的两个渠道;某公司员工的男女比例等。

    img

散点图

  • 定义: 散点图也叫 X-Y图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

  • 应用:分析坐标点的分布情况,判断两个变量(数据)之间的关联或分布趋势。

    例如:体重和身高的关系,GDP与房价的关系。

    img

联系—气泡图

  • 定义:气泡图通常是用来表述三个数据之间的关系,或者同时呈现三维数据。简单来说就是在散点图的基础上加上散点大小这个维度来进行比较。
  • 应用:例如统计学家汉斯.罗林在Ted演讲中用到的这个图,展示了200个国家:人均收入、寿命、人口。气泡基本分布在一条斜线上,人均收入和寿命有一定相关性。
  • img

应用场景总结

  • 分类比较:柱状图

  • 变化趋势:折线图

  • 总体构成:饼图

  • 相关关系:散点图

  • 更多的图表类型

    除此之外,还有很多不同的图表类型,比如:

    地理位置:地图
    流量分布:桑基图
    关系:关系图
    部分与整体:漏斗图

    我们会在后面的课程中继续学习。

Why pyecharts

  • 在Python中可以用于制作图表的模块非常多,我们选择使用pyecharts,因为 :

    1. API设计简洁,使用简单

    2. 有30+常见的交互式图表,配置灵活,图表精美

    3. 多达400+地图文件以及原生的百度地图,为地理数据可视化提供强有力的支持

    4. 模块更新频率高,使我们可以用上最新的特性和图表

      img

img