0%

推荐系统:基于内容的推荐算法

基于内容的推荐系统

核心思想

基本假设:Stable preference: long-term interests。即用户有一个恒定长期的兴趣,这样才能寻找和用户兴趣最为相似的物品。

特征提取与推荐过程

特征提取


画像构建

如何使用这些特征

推荐过程

TFIDF

TFIDF的定义

$TF$ 关注的是一个单词在一个文档中出现的次数
$DF$ 关注的是一个单词在所有文档中出现的比例

TFIDF的局限

关于$Movie\;Tag$:刘德华演过很多电影,那他的 $idf$ 很低,但是这个信息仍然很重要。

TFIDF的改进

优缺点分析

优点:完全基于内容、易于理解、方便计算、十分灵活
局限性:最大的难点就在于通过不同的刻度和属性来构建用户画像

相似性度量

Jaccard Index

Jaccard Index 通常用于计算两个集合之间的相似度,如果两个集合都为空,定义他们的 Jaccard Index 为 $1$。

Euclidean distance

欧式距离通常用于计算两个实数向量之间的距离,即各个维度差值平方和的算术平方根。

Cosine Similarity


余弦相似度是用于计算向量相似度的最常见方法,关于的是两个向量之间的夹角,夹角越小越相似。

Pearson Correlation Coefficient

形式上,Pearson 相关系数就是向量减去平均值(中心化)后的余弦相似性
应用上,Pearson 相关系数是余弦相似度在维度值缺失情况下的一种改进
本质上,Pearson 相关系数是两个变量之间的协方差和标准差的商

Pearson Correlation Coefficient vs. Cosine Similarity

$A(5, 3)$ 和 $B(3, 1)$ 可以理解为两个用户在两个不同物品上的打分,他们的 Cosine Similarity = 0.97,Pearson Correlation Coefficient = 1。由此可见,Pearson 相关系数相较于余弦相似度更为关注向量的变化情况。

Spearman’s rank correlation coefficient

Spearman 秩相关系数可以理解为是一种等级变量之间的 Pearson 相关系数

计算方法:

基于知识的推荐系统

基于知识的推荐系统一般采用交互式的方法来获取用户的意愿,通常适用于高价格、长时间的物品,例如房子和汽车,此类物品的可用打分往往较少,交互式的方法同样可以用来解决系统冷启动的问题。

适用场景

工作流程

系统推荐

参考文献:
[1] 罗平,《网络数据挖掘》,中国科学院大学2017年秋季研究生课程