变量的概念(统计学四种变量类型)

编辑：众学网发布时间：2022-05-12 00:56:19

统计学习的方法很多，今天我们就从《西游记》中取经，学习变量类型。

之前一篇推文“一张脑图搞定！统计方法选择”中提到，“变量确定方法”。作为统计的初学者，一定要掌握变量类型。

01什么是变量？

简而言之，变量就是变化的数量。比如，你的心跳忽高忽低变化，你口袋里的钱，忽多忽少变化，这里的心跳和钱就是变量。

那么变量有什么用呢？变量的本质就是一个量，也就是说变量里只装数据。

比如，我们收集到教练员的月收入，张三1.3万，李娟0.9万……。收集好之后，把这一列数据排成一列。给这个变量命个名，叫“收入变量”。

当然，我们还不止只收集教练员的收入，我还要收集他们性别，年龄等。这些变量组合在一起，就组成了一个表格。表格有很多行，也有很多列。

通常说行代表ID。对教练员的数据来说，行就是一个一个人，张三占一行，李娟占一行。列就是一个个变量，姓名、性别、年龄和收入等。

聪明的你可能发现，性别这个变量有些特殊。一般而言，性别为男性或者女性，这不是数字。可是，变量只能装数据的呀。怎么办呢？是个小麻烦。这时候，我们要学会“编码”。编码的意思就是，我们规定男性编码为0，女性编码为1。就可以用0和1代替性别变量中的男男女女。同理也可以对每名教练员姓名进行编码，分别用1 2 3 4代替姓名。

你可能还会问，为什么一定要把男性编码为0呢？可不可以反过来把女性编码为0，男性编码为1呢？当然可以随便编，你还可以把男性编码为250，把女性编码为520。

可是，你这么做，别人可能不太容易理解，也不利于后期处理，处理过程还容易出错，你何必把编码弄得这么复杂。所以，编码以简单、方便容易理解为原则。

这样我们有三层概念：数据——变量——表格。

数据的级别最低，是一个变量的具体数值；

变量是一组数据的集合，代表事物一个维度的信息；

表格的级别最高，是各个变量，也就是事物各个维度信息的集合。

02变量有哪些类型？搞明白了这一点，接下来就可以学习变量类型了。我们别看现实世界的数据千差万别，归类方法也多种，在统计学中，我们将其归为三大类，分别是分类变量、次序变量和连续型变量。由于变量就是变化的数值，所以有些教材中也将其称之为分类数据、次序数据和连续型数据。听起来有很多陌生名词，好像很难记。宣明栋老师在《数据思维课》借鉴了《西游记》人物来帮助大家理解变量类型，我也效仿之。《西游记》的取经队伍有四位，我们借用三位就好了，分别是唐僧、沙和尚和孙悟空。

第一种：分类变量，“唐僧变量”。我们知道，唐僧的思维是非此即彼的、非黑即白，给所有的东西分类，不是行，就是不行，不是好人，就是坏人，没有中间状态。分类变量也是这样。典型的就是性别，相同的还有民族、婚姻状况、出过国没有出过国等，都是分类变量，它没有大小之分，只有区别功能。依据分类数量，我们可以分成二分类变量和多分类变量。像性别分成男、女，属于二分类；而血型分成A、B、O、AB四大类，属于多分类变量。

虽然“分类”这个概念挺简单，但还是要提示一点——设置分类既要完备，又要排他。

举个例子。我们填各种表时，经常有一项“婚姻状况”，一般会有四个选项——未婚、已婚、离婚和丧偶。完备是指这四个选项包括所有婚姻状态；而排他是指这四个选项相互排斥，不存在交叉。

如果在婚姻状况中添加“同居”这个选项，那么它会与未婚和离婚这两个选项存在交叉。因为有人可能是未婚同居，也可能离婚同居，让人无法填写。

第二种：次序变量，“沙和尚变量”。为什么叫沙和尚变量呢？因为沙和尚工作都要找领导。唐僧在的时候，就找唐僧；唐僧被抓了，就找大师兄孙悟空；孙悟空不在了，就找二师兄猪八戒。你看，特别有次序。

比如这样提问：“我特别喜欢运动，这句话符合你吗”，是非常符合、符合、不确定、不符合，还是非常不符合呢？这个问题测量出来的结果就是次序数据。

本质上，次序变量还是分类变量，但是多了一个大小顺序的信息。所以有些教材分成将次序变量称为有序分类变量，而分类变量称为无序分类变量。

注意，次序变量只能说明几个选项是有顺序的，只有大小之分，而不关心选项之间差距是否相同。就像刚才那个问题，回答“非常符合”和“符合”之间、“符合”和“不确定”之间，程度是否相同，是无法确定的。

第三种：连续型变量，“孙悟空变量”。

为什么是孙悟空呢？因为孙悟空的武器是金箍棒，可以任意放大缩小。它可以取任意数值。比如我们月收入变量，可以取5000, 5001，甚至可以取5001.1元任意数值。

连续型变量的特征是，各种数据之间不但有大小之分，而且还有相同间隔，比如2000元、3000元和4000元的之间的间隔是相等的，而且还可以做乘除运算，比如4000元收入是2000元收入的两倍。

小结一下：

变量一共有三种类型，分别是分类变量、次序变量、连续型变量，分别对应唐僧、沙和尚和孙悟空。在SPSS软件中，这三类变量就对应了名义、有序和标度。

03变量类型有何指导意义？

了解这些变量类型，我认为至少有两方面作用。

第一，能指导我们收集数据

比如收入变量，本来是连续型变量，但如果把收入划分成四个档次——贫困人口、工薪阶层、中产阶级和富人群体，连续型就变成了次序变量。

但是，反过来就不行。先有工薪阶层、中产阶级这些有序分类变量之后，就没有办法转化为收入的连续型数据。这就叫向下兼容。

向下兼容的本质是说，从分类变量、次序变量和连续型变量。越往后，变量拥有的信息越多；反之，就是一个丢失信息的过程。这也给我们一个提示：收集数据的时候，尽量多收集连续型数据，以后需要的话可以向下转换。

第二，能指导我们选择统计方法

简单取个例子，得到教练员的收入情况，这是连续型变量，我们就可以计算平均值，比较收入的高低。但如果是得到教练员的性别呢？这是分类变量，计算平均性别就很荒谬了。

更重要的是，变量指导我们统计方法，详细请查看之前的推文，一张脑图搞定，统计方法选择。

最后，虽然我想说的是，尽量多收集连续型数据，但也不是说连续型变量就比其他变量更好。每一种类型的数据都有它的用处，这里没有鄙视链。

就像唐僧一样，虽然他打妖怪没啥功劳，还经常惹事，但每当遇到困难时，就采用二分类变量思维，目标明确，坚定地说：“徒弟们，别往东看了；咱们向西出发，走起”

划重点、

1.变量就是变化的数量。数据是一个变量的具体值，变量代表一个维度的信息，表格是各种维度信息的集合。

2.变量可分为分类变量、次序变量和连续型变量。其中，分类变量只能用于区别；次序变量能比较大小；连续型变量具有等距离和等比例特性。

3.了解变量类型，可指导我们收集数据和选择统计方法。

END

点赞(0)

收藏(0)

上一篇： php语法基础知识(php简单的管理系统操作)

下一篇： 2022年终奖扣税标准标准计算器(年终奖最新计算公式)

历史资讯
wifi怎么安装使用教程(在家里安装wifi的步骤)
什么样的家装适合无线网络？...
编辑：众学网
发布时间：2022-06-23 09:59:22
历史资讯
新人直播话术技巧开场白(新手主播做直播内容)
01“直播带货的开场白怎么说才能留住粉丝？”02“主播怎么说开场白，才能显现出自己的魅力？”03“主播怎么说开场白，才能让粉丝对自己有好感？”...
编辑：众学网
发布时间：2022-07-21 01:52:24
历史资讯
品牌空气能热水器排行榜(排行前十的空气能热水器品牌)
空气能热水器品牌排行？...
编辑：众学网
发布时间：2022-05-25 13:09:05
历史资讯
电脑锁屏软件哪个好用(好用的电脑锁屏软件)
Hello，大家好，我是君君~...
编辑：众学网
发布时间：2022-08-20 07:40:36
历史资讯
论文答辩开场白和结束语(毕业答辩开场白和结束语)
论文答辩开场白和结束语,毕业答辩开场白和结束语,最后一个答辩者的开场白,答辩主持词开场白和结束语,工作答辩开场白和结束语,论文答辩开场白和结尾范文,开题答辩开场白和结束语,答辩ppt开场白和结束语...
编辑：众学网
发布时间：2022-04-26 12:16:41
历史资讯
笔记本硬件维修没声音(笔记本电脑维修费用)
看着在线视频玩着网络游戏听着音乐，与家人在视频聊天，突然间笔记本没有声音了，很多人都会有想砸电脑的冲动，什么样的软件硬件或者是其他的东西导致笔记本没有声音呢！那么笔记本电脑没有声音怎么办？...
编辑：众学网
发布时间：2022-06-27 18:59:36
历史资讯
珠海好玩的地方有哪些(珠海十大必去景点推荐)
新年将至我们为在珠海过年的你...
编辑：众学网
发布时间：2022-06-06 11:09:50
历史资讯
美丽的同义词英文怎么写(美丽义词和反义词是什么专题)
pretty额近义词？...
编辑：众学网
发布时间：2022-03-30 09:41:46
历史资讯
冒险岛龙神用什么武器(冒险岛龙神超级技能加点)
本篇攻略为上古英雄系列攻略文章，希望读者能多提建议，完善本系列攻略。...
编辑：众学网
发布时间：2022-11-13 05:17:28
历史资讯
许巍的空谷幽兰是什么意思(深入解说其含义)
今日突然听到许巍这首歌曲《空谷幽兰》。...
编辑：众学网
发布时间：2022-05-20 15:06:56

发表评论

登录后才能评论