
1.2 资源发现数智化的研究思路与总体框架
在数据驱动的研究范式下,将图书馆管理的各种学术文献等当成数据资产,从先前图书馆与图书馆用户只重视“看数”,转变到“有数”“管数”“用数”的新的思维理念与工作方式。
“看数”从图书馆的角度看,只是为用户查看学术文献等资源提供服务;从用户角度看,只把图书馆当成可以查阅文献的场所。双方都没有足够重视数据资产的价值,图书馆无进一步的深入服务与用户洞察,用户没有充分利用图书馆的数据资源来辅助自己的教、学、研。
“有数”不仅指图书馆要有各类资源,不断丰富各类资源,更进一步是要从学术用户到管理人员,即各层次学术用户、图书馆的各层次管理人员,都要做到心里有数,要以数据的价值为导向,了解有关的学术资源数据产品,在个人的学习、研究中要善于利用这些文献数据,在图书馆的管理决策中要善于利用这些数据做到科学管理与决策。
“管数”是指要管理好这些文献数据,借助于大数据人工智能技术构建好的数据管理平台(资源发现系统);要能够管理各类数据资源,并引入目前流行的数据中台设计理念,追求文献数据管理质量上、效率上的提升。
“用数”是指要解决各类用户在文献数据服务上的需求,无论是学习、教学、科研,还是大学生的创新创业项目与各类大赛都可以获得文献资源与数据资源等各类资源的支持。同时利用最新的数据智能技术,提供更加智能的语义检索技术、用户画像技术等让数据为每个应用场景提供价值。
因此,基于上述的思维理念与指导思想,本课题研究的基本思路:
(1)首先对现有的资源发现系统进行充分的调研、评测与比较研究。
(2)再研究其与用户需求的匹配情况,得出用户需要的资源发现系统的通用模型。
(3)然后研究这个模型中的关键技术,探究数据驱动的理论方法在这些技术中的具体应用,将机器学习特别是深度学习融入平台的功能建设中,加大各类信息资源的利用,实现元数据增强与分布式索引,初步实现语义检索功能。
(4)最后利用合作的大学图书馆原有资源发现系统的用户行为数据,建立用户画像,构建用户需求模型,仿真实现以用户为中心的服务。
研究的总体框架如图1-1所示,主要由支撑层、核心层与应用层三部分构成。支撑层主要是资源发现系统的资源部分:软硬件资源和数据资源,软硬件资源可采用云计算模式,数据资源既包括馆内外的数字资源,又包括用户日志与用户行为数据等;核心层主要是利用数据驱动的理论方法实现对数据资源的获取与处理,对用户行为进行分析;应用层则是实现资源发现的检索功能,并为用户提供定制与推送、分析与预测服务。

图1-1 数据驱动的资源发现平台研究总体框架
1)资源管理与整合研究
现有的资源发现系统对于动态的学术信息、更多的开放存取的资料、教学讲义及公开课信息以及图片、音视频信息等的整合还比较欠缺。我们认为新的资源发现平台,需要扩大资源的整合范围以及加大资源的整合能力。为此需要研究新的资源的获取途径、获取技术、整合方式、存储及利用方法。
本研究中,需要从用户使用的历史数据中分析现有资源的满足程度,即利用数据驱动的方法动态地持续地完善资源建设。
2)元数据增强与分布式索引研究
仅仅基于元数据集中索引很难提供理想的资源发现体验,所以要研究在预先建立集中索引时,能够对增强的元数据进行索引。元数据增强是给元数据增加更多的内容,增强后的元数据包括开放数据、文献摘要及全文特征词等。
除了计量信息,这些增加的元数据内容需要用数据驱动的方法来获取和构建。例如语义词表的构建,要研究用机器学习来构建、更新词表,生成词表的分类聚类体系(概念集、概念间的层级和类别体系等),词表的关系族群(词汇和概念之间的关系/联系等)。
研究利用开源软件,例如Solr、Elastic Search来构建增强元数据的索引并提供检索接口。
3)数据驱动相关技术的应用研究
研究数据挖掘、文本挖掘、机器学习等在资源建设、资源处理、资源利用以及用户行为分析等方面的应用。重点研究机器学习中的深度学习方法在自然语言处理与理解、文本语义处理、图片视频处理方面的技术与应用。
4)用户行为分析与个性化服务研究
研究整合用户行为数据,进行用户画像、用户需求分析;根据用户身份和层次,提供个性化的检索结果,并进行分类整理;对分类后的结果能够进行多维度分析,例如对研究主题相关的知识点提供深入、准确分析,扩大思维范围;对关联的知识或文献进行有序组织;为用户提供跟踪服务,精准推送用户个性化的最新科研情报。
5)资源发现平台的构建及应用优化建议
提出基于数据驱动的资源发现平台的优化建议方案,研究实现语义检索的相关技术;研究用户个性化定制与推送技术,实现对用户行为和用户检索相关的学科主题热点与趋势的分析,对学术资源进行关联规则挖掘、层次聚类、多维尺度分析等,提升分析服务质量与水平。
为了进一步明确与聚焦研究内容,我们对资源发现系统的使用情况与研究情况进行了必要的调研。本章中的1.3节与1.4节对相关调研进行了汇报和分析。