一 k均值聚类
k均值聚类是空间分析中常用的方法,尤其适用于数据量较大的空间点的聚类分析,在考古学空间分析中有广泛的应用。本练习使用的数据,改编自英国Boxgrove一处旧石器时代遗址发掘探方的石制品分布状况。数据为全站仪测量的1000余件石制品的坐标。
1.启动SPSS软件,导入数据
SPSS软件全称“统计产品与服务解决方案软件”(Statistical Prod-uct and Service Solutions),是目前使用最为广泛的社会统计分析软件。SPSS软件采用图形菜单驱动界面,使用Windows的窗口方式展示各种管理和数据分析方法的功能,操作界面友好,简单易学,不仅适用于中高级统计人员使用,也便于初级水平的统计人员学习,具有十分广泛的受众。2009年IBM公司收购了SPSS软件的提供商,SPSS软件更名为IBM SPSS。我们使用的版本是IBM SPSS 19.0。
(1)从计算机程序菜单中启动IBM SPSS Statistics软件。如图10-1为SPSS软件的主界面。
可以看到这是一个类似Excel表格的数据输入界面,左下角的“数据视图”“变量视图”选项卡用于显示和处理数据或是进行数据变量的类型设置。上方的菜单栏一项是主要的工具栏:其中“数据”菜单用于数据的处理;“分析”菜单用于各种统计分析,是SPSS的主要功能菜单;“图形”菜单用于分析结果的制图。下面我们尝试使用SPSS对考古空间数据进行k均值聚类分析。
图10-1 SPSS软件的主界面
(2)通过“文件”菜单下的“打开”→“数据”命令,启动“打开数据”对话框,如图10-2所示,定位到本章练习子文件夹exec01,选择其中的kmeansdata.csv数据,将其打开。
图10-2 SPSS的打开数据对话框
(3)在“文本导入向导”对话框的第2步和第4步的窗口中,分别将“变量名称是否包括在文件的顶部”设置为“是”,将“变量之间有哪些分隔符”设置为“逗号”。(图10-3)
图10-3a 文本导入向导
图10-3b 文本导入向导
确定后将csv格式的文本文件导入到SPSS软件,并定义为X、Y为字段头的两个数值型变量,记录了采集点的二维坐标。
2.数据显示
首先我们根据这个二维坐标点数据,利用图形显示工具,显示点的空间分布状况。
(1)从“图形”菜单中启动“图表构建程序”对话框。如图10-4所示:首先选择“库”中的“散点图/点图”,然后双击散点图类型中的最左上角的一类,最后将“变量”中的X和Y变量分别拖入示意图中的X和Y轴。
图10-4 图表构建程序对话框设置散点图
(2)点击“确定”后生成散点图。可以看到,程序默认的散点图中的点都以空心圆的形式表示,下面我们将其改为实心的原点。双击散点图的图形部分,打开图形编辑对话窗口。在对话框中再次双击图形,打开“属性”对话框。如图10-5所示,将“填充”设置为黑色,“大小”调整为3。
图10-5 图形属性对话框
(3)确定后生成发掘探方中出土石制品的位置分布图。(图10-6)
3.k均值聚类分析
K均值聚类需要预先设定聚类的分组数,即k值。这里我们首先尝试聚类分组数为7的情况,以了解SPSS进行k均值聚类的步骤。
图10-6 探方石制品分布图
(1)启动“分析”菜单下的“分类”→“K-均值聚类”命令。如图10-7所示:将X和Y变量分别加入到分析变量中;“聚类数”设置为7;“方法”选择迭代与分类;点击“保存”按钮,选中其中的“聚类成员”和“与聚类中心的距离”。点“确定”后程序进行迭代计算和聚类分析。
图10-7 k均值聚类对话框
(2)完成k均值聚类分析后的数据表格中增加了两个变量:QCL_1记录了每条记录所在的聚类组;QCL_2记录了每个点与所在聚类组中心的距离。下面我们首先根据QCL_1变量显示聚类的结果。
(3)启动“图形”菜单下的“图形画板模板选择程序”命令,打开绘图对话框。(图10-8)选择其中的“详细”选项卡,在“可视化类型”中选择Scatterplot, x和y分别选择X和Y变量,在“色彩”选项中选择“案例的类别号”即QCL_1字段。点“确定”后对聚类结果进行显示。
彩图6是k均值聚类法对分组数为7的情况下的聚类结果,不同的类以不同的颜色区分。
图10-8 按属性绘制散点图对话框
4.k均值聚类分析的最佳分组数
计算分组数分别为1—10情况下的k均值聚类,并依据总距离平方和百分比对数曲线的下降率寻找最佳分组数。
(1)在SPSS数据表中删除坐标点X、Y字段之外的所有数据。
(2)重新运行“K-均值聚类”命令,“聚类数”选择为2,在“保存”按钮下选择仅保存“与聚类中心的距离”一项。点“确定”运行程序。
(3)程序运行完毕后,再次运行该程序,但选择“聚类数”为3,其他选项保存不变,再次运行程序。
(4)按照同样的方法反复运行程序,分别选择“聚类数”为4—10的情况。最后结果是在数据表中生成9列新的数据,分别记录聚类数为2—9情况下各点与所在聚类中心的距离。(图10-9)
(5)通过“文件”菜单下的“另存为”命令将表格转存为Excel格式的文件,并用Excel打开该文件。
(6)在Excel文件中,首先计算所有点的几何中心,并计算每个点与该几何中心的距离平方和(记为MAXSSE)。
图10-9 聚类数2—9情况下k均值聚类计算的与类中心距离
(7)计算不同分组数情况下各点到聚类中心距离的平方和(记为SSE)。(提示:使用sumsq函数)
(8)按照公式:“LN(100*SSE/MAXSSE)”分别计算不同聚类分组情况下总距离平方和百分比对数,并将该对数值制作成折线图,如图10-10所示:
图10-10 不同k取值条件下总距离平方和百分比对数下降曲线
从图10-10中可以观察到,曲线的拐点,即下降的骤降点为2。由此判断,聚类分组数为2为最佳。下面,在SPSS软件中将分组数为2的k均值聚类的结果显示出来,如图10-11所示:
图10-11 最佳分组数为2的k均值聚类结果