数据分析师的工作离不开数据,业务中的各种情况都依赖于数据。本文将讨论数据的类型及其特点。
数据是对事物进行测度的结果,不同的计量尺度会产生不同类型的数据。数据可以是数字、文字、图像、音频、视频及其组合等多种格式。
1. 数据的分类
事物的特征有简单的和复杂的,比如用户的外貌特征较为直观,而用户的偏好则不那么明显。某些差异可以用数量进行度量,而另一些则只能用分类度量。因此,统计数据可以分为定性和定量。对统计数据的属性和特征进行分类和计算称为度量,具体分类如图所示:

定性数据,又称分类数据,用于确定数据的属性。它不支持算术运算,仅用于描述事物的品质,可能是文字或数字。定性数据可以细分为两类:
① 无序数据:例如,人的性别可分为男、女、未知三类,也可以记为0、1、2。学生的成绩可分为及格、不及格等。此类数据的数字表示不同类别的品质,而不表示量的顺序或大小。数学特征为“=”或“≠”。
② 顺序数据:顺序数据是有序的。例如,空气污染可分为优、良、轻度污染、中度污染和重度污染,后面的级别比前面的更严重。此类数据的数学特征为“>”或“<”。
定量数据,也称数值型数据,用于描述事物的数量,形式为数字。定量数据可分为两类,主要依据数值是否连续:
离散型数据:通过计数得到,增长量不固定。如北京市上月空气质量有20天为优,本月有10天为优;去年净流出200万人,今年净流出100万人。离散型数据不仅能对事物进行分类,还能排序和进行数学运算。
连续型数据:是不断累加的,增长量可以划分为固定单位。如人的年龄可以是1岁、1.2岁、1.5岁、2岁等;人的身高可以是1.5米、1.51米、1.52米等。
无论数据类型如何,逻辑地划分和表达数据有助于理解和计算。
定性与定量数据的关系:定性数据是定量数据的基础,定量数据则使定性数据更加具体和准确。结合使用能通过比较分析问题。这四类数据的层次依次递增。
不同类型的数据采用不同的统计处理和分析方法,因此区分度量层次和数据类型非常重要。例如,对于无序数据,通常计算各组的频数或频率、众数和异众比率,并进行列联表分析和X²检验;对顺序数据,可以通过中位数和四分位差估计样本数据的总体;离散数据可以使用更多统计方法,如计算各种统计量、参数估计和检验等。
适用于低层次测量数据的统计方法也可以适用于较高层次的测量数据,因为后者具有前者的数学特性,但反之则不成立。例如,对于无序数据通常计算众数,而对顺序数据通常计算中位数,但对离散和连续数据也可以计算众数和中位数。相反,离散和连续数据可以计算平均数,但无序数据和顺序数据则不能计算平均数。理解这一点有助于选择合适的统计分析方法。
2. 数据的质量
数据质量的好坏直接影响分析的成功与否。评价数据质量主要从内容质量、表述质量和约束标准三个方面入手。

内容质量是数据的基本特征,包括相关性、准确性和及时性,缺一不可,否则数据无法转化为信息。
相关性指数据是否符合用户的需求,反映了数据满足需求的程度。相关性的评价是主观的,会随着用户需求的变化而变化,因此需要平衡不同用户的需求,尽可能满足大部分用户的期望。
准确性指观测值或估计值与真实值之间的接近程度,通常用统计误差来衡量。误差分为系统误差和随机误差。由于成本、环境等限制,完全准确几乎不可能,通常需将误差降低到用户可接受的范围。
及时性与用户需求密切相关,准确的数据如果未在用户做出决策前传递,则对用户来说无用。因此,及时性也是统计数据满足用户需求的重要特征。现象变化较快时,数据的及时性要求更高;变化缓慢时,则要求较低。
表述质量:仅关注数据内容质量是不够的,多个参与者共同需求时,必须考虑如何清晰、充分地表述数据。统计数据的表述质量包括可比性、可衔接性和可理解性,这些都是在提供数据或分析报告时需要注意的要点。
可比性指同一项目的统计数据在时间和空间上的可比程度。这要求统计概念和方法保持稳定,并使用统一的统计制度和分类标准,以确保统计数据的一致性。
可衔接性指同一统计机构内部不同项目、不同机构及与国际组织间统计数据的衔接程度。这要求所有统计项目在统一的统计框架和分类标准下进行,采用国际统计标准。
可理解性指统计数据便于用户正确理解和使用的程度。为了恰当地使用统计数据,用户必须了解数据的性质。因此,统计机构在提供数据时应附带相关说明,包括有关概念的解释、分类方法以及数据处理过程中的方法和质量评价。
约束标准:在实现统计数据目标时,除了注意内容质量和表述质量外,还需关注以下两个约束标准,以体现数据质量特征。
可取得性是指用户获取数据的便利程度。用户必须考虑如何获取有用的数据,因此,统计数据必须以用户方便使用且可负担的形式提供。
有效性指利用统计数据所产生的效益必须大于提供该数据的成本。如果相反,则提供该数据对双方而言都不划算。这要求在确保其他质量不受影响的前提下,尽可能降低生产成本,提高效率。
