资源发现数智化
上QQ阅读APP看书,第一时间看更新

第1章
资源发现数智化概述

1.1 资源发现数智化的背景、目的与意义

资源发现(resources discovery)也即资源发现系统,是用户与非结构化资源(主要是学术资源)之间的端到端的解决方案,能为用户提供高效的资源发现与传递(resources discovery and delivery)服务。资源发现系统将资源数据标准化处理后,采取预收割方式纳入元数据标准体系中。此外,资源发现系统的元数据标准体系还包括图书馆的馆藏资源,最终形成一个预聚合的元数据联合索引库,可处理包括图书馆自身的物理与数字馆藏、远程数据库、电子资源,以及开放获取资源等丰富的资源内容[1]。目前,国外的资源发现系统主要有EDS、Primo、Summon、WorldCat四种;国内主要有超星学术发现系统、文津搜索、e读、读秀、CNKI学术搜索、百度学术等。随着数据智能时代的到来,学术用户对信息资源及其服务的需求发生了较大的变化,而目前国内外图书馆资源发现系统在检索和服务方面还不能完全满足用户的需求。Google Scholar等学术检索平台的发展使得越来越多的用户转向图书馆外的在线学术平台,给图书馆资源发现系统带来了巨大挑战。

尽管资源发现系统以“简单、快速、易用、有效”的检索体验颠覆了传统的图书馆整合检索系统带给用户的感受,但随着大数据的发展和人工智能技术的不断突破,当前的资源发现系统还不能完全满足用户的需要。例如元数据还不方便扩充与集成[2,3];没有对查询主题的结果做足够的直观系统的概述[4,5];对用户使用的行为数据的分析及其应用很少涉及[6,7];检索结果的排序和个人理解和认知存在着较大的差异[8,9];检索结果集过于庞大,无法快速找到需要的信息[10,11]

近年来,谷歌学术、百度学术和360好搜等学术搜索引擎愈发引起人们的重视。越来越多的用户在查找资源时更倾向于谷歌或谷歌学术等搜索平台,其查询免费、易用和良好的用户体验等特点也越来越受到用户的欢迎。Ithaka S + R持续6年的图书馆调查表明,在2013至2019年间,本科生、硕士生和博士生使用发现服务的数量每年均有不同程度的下降[12]

自2013年以来,不断有学者和机构开始探索资源发现系统的发展和改进,提出针对资源发现系统的优化建议。如林鑫[13]等人构建了多源文献元数据模型,解决了资源发现系统中的元数据质量不足的问题。美国信息标准组织推出由Breeding[14]起草的白皮书,系统地讨论图书馆资源发现的未来,提出了通过关联数据显露图书馆资源、建立更透明的发现系统API并对图书馆开放接口、建立对富媒体资源和特藏资源的分析等建议,并提出了该组织的开放发现首创计划(ODI,Open Discovery Initiative)。中国国家图书馆首次尝试将资源发现系统与百度学术、豆瓣书评等第三方外部系统整合[15],结合社交网络的功能,增强用户体验,增加用户黏性。韦艳芳等[16]提出构建流程驱动、用户角色和情景敏感的资源发现系统的思路,并介绍具体的实现方法。文献[17]以中国国家图书馆“文津搜索系统”为例,从资源整合、揭示到系统的检索功能及服务模式等方面,全面探索了提高资源发现系统服务能力的方法,包括硬件扩容、软件功能等方面对系统的优化与提升。

随着数据智能时代的到来,图书馆资源发现正处在发展的关键时刻。各种新的搜索技术、索引技术、语义技术和文本分析技术正在用于发现系统的研究。本研究提出构建基于数据驱动(数据智能)的图书馆资源发现平台,是在现有图书馆发现系统之上,通过对图书馆用户行为数据的实时动态分析,以及通过元数据增强整合更多内外部数据资源,建立更深层索引,初步实现语义化检索,个性化地服务“教学研”用户的应用平台。

具体目标:

(1)整合学术动态信息、开放存取资料等更多的资源,探索对图片音视频信息资源的利用。

(2)实现元数据增强与分布式索引,以便能够充分利用整合的新资源。

(3)建立用户画像与用户需求模型,以用户使用行为洞察促进对资源发现系统的优化。

(4)实现语义搜索与个性化的定制与推送、分析与预测功能,提升图书馆的管理与决策能力。

研究意义:

(1)理论层面的价值在于:提出了数据驱动的资源发现思想,是理论上的创新。目前只有学者提出用数据驱动进行资源发现系统评估,以及个别文献谈到大数据与资源发现关系。但本研究将在资源发现系统的整合开发或改造流程中,贯穿数据驱动思想和方法。

(2)技术层面的价值在于:使用数据驱动的数据挖掘、文本挖掘、机器学习等方法,解决新资源获取、用户需求及反馈信息获取与挖掘;利用知识图谱来构建知识单元关系,建立资源语义整合模型,将机器学习中深度学习方法与关联数据相结合,以解决语义网和本体难以大面积应用的问题,提高资源发现系统检索效率。而更广泛深层的开放资源获取、用户需求及系统利用、系统检索功能三个方面正是当前资源发现系统所需要解决的关键问题。

(3)中间成果的价值在于:本研究中,将会对当前资源发现系统进行全面的评估及问题提炼;将会系统地调研当前图书馆用户的信息需求及资源发现系统满足度,这为当前多家正在引进资源发现系统的图书馆提供了采购参考也为资源发现系统开发商系统升级和改进提供了数据支持。

总的来说,本专著的研究内容,在理论层面,丰富和发展了资源发现理论;在应用层面,为资源发现开发商、正在进行资源系统改造及二次开发的图书馆、正在进行资源发现系统选型的图书馆,提供了技术手段及决策参考。