0%

《深入浅出统计学》第一章 信息图形化

什么是统计

统计是这样一些数字:它们通过某种有意义的方式对原始事实和数字进行提炼,使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。例如:若你只想知道自己心爱的球队在联赛中排名如何,大可不必辛辛苦苦地过目诸多赛事的得分记录,只需一个统计量,就能立即得到所需要的信息。

对统计的研究包括:统计数据的来源、计算方法及有效使用方法并得出结论。

为何学习统计学?

得到可靠的统计量,就能做出客观的决策,如有神助地进行精确地预测,以及以最有效的方式传达自己想传达的信息。

统计有时会具有误导性,好好掌握统计学会让你拥有更好的手段去判断统计量是否出错或产生了误导。

饼图

饼图的作用是将数据划分为几个组,扇形块的大小表示这类数据占总数的比例。

一个特定组中的对象数目称为频数。

当所有扇形块的大小相似时,饼图用处不大,因为这时难以根据扇形块的大小进行判别。

条形图

条形图的每一个长方形代表一个特定类,长方形的长度代表某种数值。

条形图可以是垂直的,也可以是水平的。垂直条形图用横轴表示类,用纵轴表示频数或百分数。

处理多批数据时,可以使用堆积条形图或分段条形图

类别与数据

类别数据(定性数据)

类别数据就是把划分为各种类别的数据。例如:游戏种类就是定性数据的一个实例,每个游戏种类形成一个独立的类别。

数值型数据(定量数据)

数值型数据描述的的是数量,所以也称为定量数据。

直方图

直方图与条形图外观相似,但有两个重大区别:

  1. 每个长方形的面积与频数成比例;
  2. 图上的长方形之间没有间隔。

要点

  • 频数是一种统计方法,用于描述一个类别中有多少项。
  • 饼图能很好地体现基本比例。
  • 条形图更灵活、更精确。
  • 数值型数据涉及的是数字和数量;类别数据涉及的是表述和质量。
  • 水平条形图用于展现类别数据,尤其是在类别名称太长的时候。
  • 垂直条形图用于展现数值型数据,若类别名称不长,也用于体现类别数据。
  • 可以在一张条形图上体现多批数据,有两种做法。可以使用堆积条形图,让相互关联的长方形并列显示,借此比较频数;也可以使用分段条形图,把长方形一个一个衔接起来,借此显示比例和总频数。
  • 条形图标度可以是百分数,也可以是频数。
  • 每张图都变化多端。

区间宽度不同的直方图

数据区间有不同宽度时,长方形面积表示频数,长方形高度代表频数密度。

频数宽度指的是分组数据中的频数的密集度。计算方法如下:频数密度=频数/组距。

直方图是一种专门用于体现分组数据的图形。但每条长方形的高度等于频数密度——而不是频数。

绘制直方图时,每个长方形的宽度与其分组宽度成正比例。长方形按照连续的数字标度绘制。

直方图中的每个组的频数通过长方形面积求出。

直方图的长方形之间没有间隔。

累积频数图

某个数值的累计频数即到这个数值为止(包括这个数值再内)的频数总和。例如,假设有一些人的年龄数据,数值27的累计频数表示到27岁为止的人有多少。

折线图

折线图能更好地体现数据趋势,条形图更适合对数值或类别进行比较。

折线图显示多批数据时不会显得过于拥挤。

折线图常用于显示随时间变化的数值。时间总是用横轴表示,频数用纵轴表示。

折线图应只用于展现数值型数据,不应用于类别数据。因为对类别数据绘制趋势线是没有意义的。

要点

  • 累计频数即到某个特定数值为止的总频数,即频数的累计总和。
  • 通过累计频数图,可基于累计频数找出每组数据的上限。
  • 需要体现趋势时请使用折线图,例如基于时间的趋势。
  • 可用折线图显示多批数据。每批数据各用一条线表示,请确保能清楚识别每一条线。
  • 由于通过折线图很容易看出趋势形状,因此可用折线图进行基本的预测。只要延长趋势线即可进行预测,但要尽量保持基本形状。
  • 不要使用折线图显示类别数据——除非要显示每一个类别的趋势,例如基于时间的趋势,为每一个类别画一条线。