国外数字图书馆推荐系统评述

作者:时间:2011-02-12 11:06:52  来源:www.ksfbw.com  阅读次数:1317次 ]

摘 要:本文通过介绍Tapestry, Fab, Citeseer, SERF, Melvy,l Amazon等几种常见的推荐系统,概 述了国外数字图书馆推荐系统的研究进展,分析其主要特点,指出对国内数字图书馆建设具有借鉴意义.
    关键词:数字图书馆;推荐系统;研究进展 

Abstract:By introducing several common recommendation systems such as Tapestry, Fab, Citeseer, SERF, Melvyl and Amazon, this article summarizes the overseas research progress on digital library recommendation sys- tems, analyzes theirmajor characteristics, and points out their reference significance to digital library construction at home· 
Keywords:digital library; recommendation system; research progress  心理学论文发表

      数字图书馆推荐系统是通过向用户提供有关的文献信 息或利用的建议,帮助用户找到和选择比较相关信息的一 种工具。它能够收集和统计用户查找信息,通过分析用户 行为的特点来对信息内容进行推荐。近年来,国外对数字 图书馆推荐系统的研究取得一定的进展,本文将对国外常 见的几种数字图书馆推荐系统加以介绍和评价.
    1 Tapestry系统 1992年12月,美国施乐公司研究所开发了Tapestry 系统,这是早期的推荐系统,目的是过滤海量的电子邮 件,推荐电子新闻[1]。在Tapestry系统中,用户可以对阅 读过的文章发表意见,标注出他们是“喜欢”或“讨厌” 这篇文章。其他用户既可以根据关键词检索文章,也可以 根据用户的评注来选择文章阅读。Tapestry系统以促进用 户之间相互了解为前提,从而让用户清楚哪些评注具有参 考价值;它不是自动根据用户兴趣进行推荐,而需通过用 户构造较复杂的查询才能得到检索结果。其体系结构如图 1所示。开发者Goldberg等人还首次提出“协同过滤”的 概念:即人们相互协作,通过记录其对阅读过的文档的反 应态度(有兴趣或不感兴趣)进行筛选,这对以后的推 荐系统研究与开发具有重要的启发意义.
    2 斯坦福大学的Fab系统 Fab系统是斯坦福大学数字图书馆项目研究的一部分 内容。1997年3月, M·Balabanovic详细介绍了Fab系统 的结构与功能[2]。Fab旨在帮助用户从海量的互联网信息 中筛选出有用信息。该系统结合了基于内容的推荐和协同 推荐的优点,采用混合推荐技术向用户推荐感兴趣的信 息。其推荐过程可分为两步:第一,收集信息建立可管理 的数据库;第二,为特定用户从数据库中选择所需要的信 息。Fab主要由3个部分组成:收集代理(即查找特定主 题的网页)、选择代理(即为特定用户查找网页)和中央 路由器。每个代理都根据有用户评价的网页所包含的词语 构成一个文档(Profile)。收集代理的文档代表目前的主 题,而选择代理的文档代表单个用户的兴趣。收集代理将 收集到的网页提交给中央路由器,再由中央路由器根据页 面与用户文档的匹配程度向用户推荐页面;用户的选择代 理还可以删除用户已经看过的页面,并在任何单批的推荐 (通常为10页)确保每个站点最多推荐一个页面。用户的 反馈往往投入了大量的时间和精力,应将其存储在各自的 选择代理文档中,并确保不被其他用户反馈所“淹没”.
    用户需要对推荐的页面予以评级,据此更新其个人选择代 理的文档以及调整原始收集代理的文档。同时,用户评价 较高的页面直接推荐给具有相近兴趣的用户,实现协同推 荐。而打分特别高的网页将会直接推荐给用户的最近邻 居,即和用户具有相似偏好的其他用户。Fab系统的优点 是综合了各种主要的过滤方法,能够对一些数据量大、变 化性强的信息进行过滤,可以进行动态反馈,实现个性化 推荐服务.
    3 C iteseer系统 CiteSeer是在自动引文标引(AutonomousCitation Inde- xing, ACI)的基础上建设的一个学术论文数字图书馆 (网址为http: //citeseer·ist·psu·edu),它提供了一种通过 引文链接检索文献的方式,目标是从多个方面促进学术文 献信息的传播与反馈。CiteSeer可以检索互联网上“Post- script”和“PDF”文件格式的学术论文。它通过网上搜 索引擎,根据给定的关键词查找、下载论文,分解论文, 提取摘要、引文等特征信息,然后建成数据库。用户可利 用关键词或链接到与给定文章有相同引文或引用了该文章 的论文在数据库中寻找相关文献。除了简单浏览和关键词 搜索,系统可利用文字信息和共引分析方法找到相似文 献。CiteSeer采用自动引用标引来提高科技文献分发或检 索的质量,考虑了文档间的引用关系,把引证脉络凸显出 来,按照文章声望的高低向用户发布。这些系统从大的分 类上都为信息检索系统,但同时也包含了信息过滤及协作 过滤技术。CiteSeer预测用户对网页喜好程度,对网页的 评价是通过监控用户的书签以及书签目录隐含信息而得 到。如果把一个URL保存到一个书签目录中,则认为用 户喜欢该URL代表的网页。用户概况表通过一系列URL 来描述。使用最邻近邻居方法计算用户间的相似度,把出 现在多个邻居中的URL向目标用户推荐[3].
    Citeseer系统主要由以下部分组成:自动定位、获取 研究刊物的子代理;文档解析器和数据库生成器;支持关 键词检索和引用链接浏览的数据库浏览界面。该系统的结 构见图2。2008年7月, K·Chandrasekaran等人提出了一 种新的推荐方法,系统可以向Citeseer数据库中的作者推 荐他们可能感兴趣的研究论文[4]。首先,根据作者已发表 的论文情况,为其建立用户文档。然后,基于用户文档与 收集到的文档内容的相似性,向作者推荐其他论文。该文 还介绍了一种表示用户文档的新方法:概念树和使用树形 修改距离度量计算用户文档和内容文档之间相似性的算 法。实验证明,基于概念的算法要比传统的基于空间向量 模型推荐技术效果较好. 临床医学论文发表 
    4 基于图表的数字图书馆推荐系统 2002年,美国Arizona大学的Z·Huang等人介绍了一 种基于图表的数字图书馆推荐系统[5]。该系统综合了基于 内容的推荐系统和协同推荐系统的特征,且在网上书店进 行实施。网上书店记录了图书的主要内容、客户的个人背 景和购买历史等,这些内容与数字图书馆中的文档内容、 用户特征、使用记录等很相似。此方法包括两个阶段。第 一阶段,使用实际客户和图书的特征向量来表示客户和图 书。客户的特征向量包括客户的个人背景,图书的特征向 量主要包括图书的特性和文本信息,如标题、简介、前言 等。然后根据特征向量,利用相似性公

本站论文资源均为来自网络转载,免费提供给广大作者参考,不进行任何赢利,如有版权问题,请联系管理员删除! 快速论文发表网(www.ksfbw.com)本中心和国内数百家期刊杂志社有良好的合作关系,可以帮客户代发论文投稿.

投稿邮箱:ksfbw@126.com
客服Q  Q: 论文发表在线咨询82702382
联系电话:15295038833

本站论文资源均为来自网络转载,免费提供给广大作者参考,不进行任何赢利,如有版权问题,请联系管理员删除!

广告推荐

文章评论

共有 0 位网友发表了评论

阅读排行

推荐文章

最新文章