spss数据类型转换(spss三种基本变量类型)

spss数据类型转换(spss三种基本变量类型)

花萼长度,花萼宽度,花瓣长度,花瓣宽度4个变量呢,是具体的数字,可比较大小,可加减乘除,这类数据我们通常喜欢称之为连续型数值变量。定义为数字类型 标度测量方式,比较好理解。

重点来看鸢尾花【种类】这个变量,它首先是类别型的,有3个分类水平,分别是Setosa,Versicolour,Virginica,如果我们录入数据时录入的是Setosa,Versicolour,Virginica这样的英文,那么它是字符串数据。而如果我们录入数据时直接录入1、2、3这三个数字,并给数字1加标签为Setosa,2标签为Versicolour,3标签为Virginica。那么此时数据是1/2/3这样的数字,是数字不是字符串。再比如我们有一个变量是省份,那全国有31个省份,它的具体取值是具体的省份名称,比如陕西省,河南省,在数据录入的时候经常是直接录入汉字陕西省,河南省,这一类的数据因为录入的是汉字所以它也是字符串格式。现在讨论一下鸢尾花iris数据集中的种类变量,如何定义才合适呢?

一部分读者会说,看菜下单,它取值有三Setosa,Versicolour,Virginica,均是字符串(如果录入的是英文),那我们就把它在SPSS中定义为【字符串】类型,【名义】测量方式,试一下。假设我们进行判别分析。看看会发生什么事故。

你会发现,被你定义为【字符串】类型的【种类】变量,压根就没有出现在待分析的变量列表中,判别分析需要【种类】这个变量数据的参与,可是它现在完全找不到了。判别分析失败。为什么会这样呢?问题就出在字符类型上,它不符合(SPSS)统计方法分析的需要。那怎么办呢?定义为 数字类型 名义测度,同时定义标签给数字加上文字说明,数字1就代表Setosa,数字2代表Versicolour,数字3代表Virginica。

再用判别分析测试一下,ok,完全没毛病。这就是在SPSS统计分析时应首先准确定义变量属性/类型/测量方式的重要性。

此案例,也可以提示大家尽可能地定义和使用变量标签值。在SPSS软件中,这一操作十分方便而且好处多多。总结一下:除名称/名字的数据比如人名地名,定义为字符串变量类型外,其他的数据尽可能定义为数字类型,如果是无序分类变量则测量尺度用名义,如果是有序分类变量则测量尺度用有序,如果是连续数据测量尺度即为标度。

本文完文/图=数据小兵

发表评论

登录后才能评论