
1.3 特异群组挖掘任务
如前文所述,挖掘高价值、低密度的数据对象是大数据的一项重要工作,实现这一挖掘需求的数据挖掘任务被称为特异群组挖掘。特异群组挖掘的目的是发现数据集中明显不同于大部分数据对象(不具有相似性)的数据集合。特异群组挖掘问题既不是异常点挖掘,也不是聚类[1]。特异群组挖掘由朱扬勇和熊贇于2009年提出[8]。文献[8]中特异群组的英文是Peculiarity Groups,意指这些群组具有特殊性、异常性;文献[9]强调这些群组中的对象具有强相似性、紧黏合性(即Cohesive),因此,将特异群组挖掘的英文进一步深化,表达为Cohesive Anomaly Mining,意指挖掘的特异群组不仅具有特殊性、异常性,且群组对象是强相似、紧黏合的。由此,特异群组被定义为在众多行为对象中,少数对象群体表现出相异于大多数对象而形成的异常群组(Abnormal Groups)[9],是一类高价值、低密度的数据形态,如图1-1所示。图1-1中所有的点表示数据集中的数据对象,黑色点相对于白色点而言更加紧密,但是数量相对较少。通常我们将大部分对象描述为正常,少部分对象描述为异常,因此,称图1-1中那些白色点为正常点(因为占数据集的大部分)。而黑色点形成一个一个的群组,表现出与白色点不同的特征模式,且占数据集的极少部分,我们称这些群组为特异群组。

图1-1 大数据集里的特异群组
大数据特异群组挖掘具有广泛的应用背景,在证券交易、互联网金融、智能交通、社会保险、生物医疗、银行和网络社区等领域有应用需求,对发挥大数据在诸多领域的应用价值具有重要意义。例如,在证券市场中,特异群组常常表现为合谋操纵(多账户联合操纵)、基金“老鼠仓”等。这些账户以获取不正当利益为目的,集中资金优势或利用信息优势,操纵交易量、交易价格,扰乱市场秩序。其中,合谋操纵的行为模式主要是集中资金优势、持股优势进行市场操纵,通过使用多个账户进行分工交易、分仓持有来操纵市场价格和成交量,以诱导其他投资者;基金“老鼠仓”的行为模式是通过某种方式获悉基金即将或正在交易某投资标的,且该笔交易大幅影响投资标的价格的交易信息,在相近时刻,以相同的买卖方向用个人私有资产同步交易该投资标的,以获取收益。但总体而言,合谋操纵、基金“老鼠仓”只占所有交易账户数的少部分比例。在后续章节,我们将对该应用场景以及其他更多领域的场景进行详细介绍。
根据挖掘对象数据集的来源、种类以及应用需求,特异群组挖掘的研究和应用发展主要包括以下几方面。
(1)单一行为数据集上的特异群组挖掘
特异群组挖掘思想的产生来源于发现基金“老鼠仓”这一应用需求,即需要从投资者的交易行为数据集中发现具有可疑操纵行为的多个账户群组。因为这是一个新的挖掘任务,不能用传统的聚类、分类、异常点挖掘等方法实现,所以初期的特异群组挖掘研究主要关注在单一行为数据集上如何挖掘特异群组的问题。
(2)将单一行为数据集上的特异群组挖掘扩展到多行为数据集上
获取尽可能多的数据是一种直觉上的追求,即数据越多对决策越有利,或者至少比别人知道得更多[2]。因此,人们把特异群组挖掘扩展到多行为数据集上,以提升特异群组挖掘的能力。
(3)用图(Graph)结构表示的行为数据集上的特异群组挖掘
图是展示对象及对象间关系的一种有效的数据表示形式,已经用于表示许多现实应用中的数据,如社交网络、学术引用网络等。数据对象及其行为之间的关系也可以用图的形式表示,例如投资者与购买某只股票的投资行为、患者与前往某一医院的就医行为,等等。因此,图数据上的特异群组挖掘也成为一个重要的研究内容。
(4)事件驱动的特异群组挖掘及其行为预测
大数据应用是决策应用,即给定一个决策需求,然后分析数据,形成决策依据。例如,在“有组织犯罪发现”的应用中,如果有犯罪线索的话,则可以依据犯罪线索来挖掘特异群组,这就是事件驱动的特异群组挖掘。可以看到,基于事件驱动的特异群组挖掘是一个与查询相关的任务需求,但是特异群组是由数据集中的少部分数据对象组成的,因此在效率上是一个挑战。