推荐系统综述

Published: 01 Sep 2012 Category: 理论及算法

推荐系统目前用途广泛,但是仍然处在一些不足需要改进。

推荐模型

用户向推荐主动提供个人偏好信息或推荐请求(也可不主动提供而让推荐系统主动采集),推荐系统根据不同的推荐策略或根据已建模的知识库进行推荐,返回推荐结果。

推荐根据用户和推荐对象(item)的信息对未评价的item进行评价:

现有的推荐算法

推荐算法有不同的分类,比较细致的分类可分为以下几类:

1 基于内容的推荐

基于内容的推荐是通过匹配item的特征和用户兴趣的特征的相关性,认为相关性高的item用户更可能感兴趣。

通常用户的兴趣根据用户的历史数据获得,如用户已评价的item的特征。

缺点:

特征提取对于某些item如多媒体来说很难,有些特征相同的item对用户来说具有较大的差异(比如我这篇文章和IEEE transaction那篇文章都是推荐系统的综述文章,但是估计没几个人愿意看我的)。

无法为用户推荐其他方面的文章。

User问题。

2 协同过滤

协同过滤技术是根据相似用户的喜好为用户进行推荐。,是目前应用最广泛的推荐技术。

1) 启发式算法

启发式算法的思想是使用用户c的相似用户c'对一个对象s的评价来预测用户c对对象s的评价已决定是否推荐。

用户的相似度的计算主要是根据两个用户对同意对象的评分差异。最近本的两种方法是基于关联的和基于余弦距离的。

基于关联的是根据用户c和用户c'共同评价的所有item的评价相似度计算关联。

基于余弦距离的方法直接把评分作为向量来计算余弦距离。

预测评价的计算公式如下表示:

aggr表示相似用户评价的启发式函数。

启发式函数主要有三种:

其中,(a)简单的取平均值,(b)根据相似度取期望值,(c)引入了归一化变量,杜绝了用户之间的评价标准(评价平均值)不同。

2) 基于模型的方法

此方法利用用户c对众多对象的评价来学习c的模型,把用户归类到一个模型或者一个类型中,然后使用概率的方法对新的对象s的评价进行预测。形式化表述如下:

公式表示对于item的评价的期望值。评价范围为0~nPr(r=i)表示评价为i的概率。

缺点:

新的用户

新的item

评价数据的稀疏性。

3 基于人口统计信息

此方法是在推荐系统中引入了用户人口统计信息,如年龄、性别等。

4 基于知识的推荐

此方法是一种推理技术,利用针对特定领域的规则来进行推理。如认为中国人喜欢吃中国菜。

但这种技术的瓶颈在于知识和规则的获取。

5 基于社区的推荐

引入用户的社会关系,根据用户的好友的偏好获知用户的偏好。

6 基于组合的推荐

组合推荐通过组合各种推荐技术以弥补某一推荐技术的缺点,根据组合方法可分为三类:

1)分别使用不同推荐方法获得推荐结果,结合不同的推荐结果获得最终的推荐结果。(也可以对不同的推荐结果进行评价将最好的推荐结果作为最终的推荐结果)

2)以一种推荐方法为框架,融合令一种推荐方法。

3)基于不同的推荐技术构建一个推荐模型

推荐系统的性能评价方法和试验方法

对于推荐系统存在多种多样的评价参数,最常用的是精确度(accuracy)和覆盖度(coverage)。覆盖度是评价推荐系统可推荐的item的覆盖范围。精确度常用的指标有基于统计的和基于决策的。基于统计是比较预测的评价和真实的评价的误差,如(mean absolute errorMAEroot mean square errorRMSE)和correlation。基于决策是评价推荐系统推荐的结果和用户需要的相关程度,如精度、召回率,F-measureROC等。

试验方法可分为离线实验(offline experiment),用户模拟(User Studies)和在线评价(Online Evaluation)。离线实验是通过已有的数据集进行模拟用户行为。

用户模拟是通过让一些试验志愿者对系统进行使用、反馈和评价。在线评价是将系统launch,让真正的用户使用,通过统计数据进行评价。

这三种方法的cost以此增加,离线实验是最好的也是最有说服力的,但是往往找不到合适的数据集,这也是很多研究的瓶颈。

最新研究方向

1 用户和item的特征提取

2 基于情境的推荐

3 多尺度(Multcriteria Rating)推荐技术

4 用户交互的侵袭性(Intrusiveness)

5 推荐系统的安全性

6 推荐系统的灵活性

7 推荐系统的评价准则

Reference

[1] Adomavicius, G., Toward the Next Generation of Recommender systems: A Survey of the State-of-the-Art and Possible Extensions. IEEE TRANSAC TIONS ON KNOWLEDGE AND DATA ENGINE ERING, 2005.

[2] 许海玲等, 互联网推荐系统比较研究. 软件学报, 2009.