当前位置：爱吾下载 > 网站运营 > 什么值得买推荐系统思考

什么值得买推荐系统思考

发表时间：2018-03-10 10:42:44作者：zy人气：更新时间：2026-03-11 20:15:13

时逢年假，把自己对部分场景以及推荐系统的理解整理出来，大多只是提出疑问与简单思考。

一、什么才是好的推荐系统

推荐系统要平衡好几方的关系

推荐系统三方关系

用户：接收到有用的、有趣的内容; 站方：在不断的好文推荐中，让用户参与其中，升级消费观念，最终达到转化率效果; 内容提供者：内容的参与度提升，曝光度增加，鼓励用户不断产生内容;

在这三方参与者之间，其实普通用户才是关键。如果用户在阅读过程中，无法接收到有用、有趣的内容，那站方、内容提供者的愿景更是无从实现。什么样的内容才是有用的信息?什么样的推荐系统才是好的推荐系统?从算法角度讲，“精准”是推荐系统的衡量标准，即关联相似度。

可是事实真的是这样吗? 提出几个场景：

用户收藏了一篇关于“家装”内容的文章，就根据相似度理论不断推送同类文章。

一周内用户“好价”内多次搜索、浏览同一关键词，第二周停止搜，用户是不是已经完成购买这一产品了?

用户在好价内搜索“软毛牙刷”，那好文系统应该推送的是“牙刷测评”还是关联”口腔健康“商品的文章呢? ……

推荐系统不仅仅应该只追求“精准”，因为这可能造成两项误区：

重复推送，用户可能已经购买过类似商品或者根本对这类文章失去了兴趣

用户本来就打算购买的商品，单一推荐并不能够增加潜在的消费升级，反而是相似度更小的衍生产品文章，会让用户感到新意，同时提高KOI

所以，对于我们的好文推荐系统体系，要完成的不仅仅应该是“精准”，而是在准确识别预测用户行为的同时，帮助扩展用户的视野，帮助用户发展他们可能感兴趣，自己却并没有发现的内容。

也就是说，好文推荐系统的场景是极为重要的，应该有懂推荐系统和业务流程的产品经理同时加入到推荐系统团队

二、理解用户的行为

分析前，我们首先要关注用户行为和数据：

用户数据来源

以上全部数据都会是判断用户行为的来源。那如果训练一个二进制分类器，首要任务是定义正负样本，为样本定义正负标签绝不是普通任务，联系场景考虑，有什么可能存在的坑?

思路有限，我们就单从好价浏览内容时用户数据入手先画一个行为漏斗：

行为漏斗

最简单的思路是：按照行为漏斗的深度对样本行为设立不同权重，判断用户行为偏好，然后进行推荐，可现实场景确实是这样吗?

简单提几个问题： 1、什么样的数据可以看作正样本? 2、点击行为都是正样本吗? 3、点“值”是什么想法?“不值”呢? 4、评论行为证明什么?用户是在提出问题还是回答问题? 5、买过的商品还需要再推送吗? ……

讨论这几个问题的基础要回到推荐系统的第一步：理解/获取用户需求那用户真的需要什么?怎么理解他的行为?

对刚才的问题一个个来讨论：(不以详尽性为目的，只做讨论)

1、什么样的数据可以看作正样本?

行为漏斗中只有“收藏、分享”这两个动作能被完全看作为正样本，分享的行为成本还要高于收藏，但是收藏对于推荐系统识别是有很大帮助的，这证明用户对于这类商品是有兴趣的，有潜在的购买需求，这符合我们推荐的基本场景。

2、点击行为都是正样本吗?

所有的不点击动作都可以看作负样本，但是对于点击动作也应该分情况讨论。比如：

3、点“值”是什么想法?“不值”呢?

交互动作很大一部分发生在“值/不值”上，但是这个行为是一个很复杂的动作，例如：

不同频次的“点值/不值”动作，很值得我们讨论。因为点值行为是值得买平台内中为数不多的评分反馈，更可能反应了用户深层次的行为驱动，他真的想要什么?喜欢什么?行为永远比言语更能反应用户的内心。

4、评论行为证明什么?用户是在提出问题还是回答问题?

之前的讨论里用数据分析过评论区中的内容，但是我们分析的是：用户在讨论什么?需要什么?而今天我们除了这个结果以外，我们还需要讨论一点：这些用户是谁?提问者?回答者?他是不是已经购买过这个商品了?我们应该更偏向对于提问者推送相关内容，因为他们是更潜在的购买者，对于专家用户，可能他已经对类似内容失去兴趣了。

5、买过的商品还需要再推送吗?

不能够确定值得买平台有没有用户购买数据(例如海淘网站返利成功数据)，如果存在这个数据库的话，这完全能够用户是否购买过这个产品。如果没有的话，只能从用户深层的行为来判断他是不是购买过这个产品了。

三、推荐场景思考

当理解用户行为之后，开始推荐系统第二步：满足用户需求，用算法做推荐。

大部分电商网站现在都采取了较为成熟完善的协同过滤算法，作为推荐系统的主体。同时也采用了多种推荐系统算法加权累加，例如：FFM、SVM、LFM等。我个人建议以CF item based为主，一是因为算法成熟，便于实现，二是user 数目远大于 item 数目，user based 很难以对用户进行归类。

做相似度分析第一步：Item画像设计，其遵循的原则为提炼出那些易于区分不同Item的显著性特征或标签。这一步需要做详尽性分析，不做讨论。

转而思考计算相似度时，除了在本身item标签内容中计算相似距离，我们还需要考虑什么场景?什么特殊因子?

1、冷启动场景：

通常在新用户进入系统时，没有数据来源导致冷启动问题，大多数网站采取主动选择标签功能，进行标签相关内容推送：