本文以作者的实际经验列出了基于点击、转化等目标的选取使用的特征分享,主要是针对搜索、推荐、广告等典型场景的实践,读者可以结合实际业务特点参考如下内容。
特征选取分类
特征一般定义为三大类,分别为上下文特征(Context)、用户特征(User)和 Item 特征(Item),当然再细化后,还会有 Context-Item、User-Item 等交叉特征。
场景
社区推荐/搜索
如以类似小红书、新氧等的社区帖子推荐/搜索列表展示为例子,可以如下的思路进行特征选取:
- 社区帖子列表中的可视化因素都可以整理成特征;
- 由于帖子列表占大头是封面图片,用户是否进行点击封面图片起到关键作用,可以细化封面图片特征的提取。
一般帖子列表中外露特征基本都属于 item 侧特征,示例如下:
特征 | 描述 |
---|---|
封面图片的 ctr | 假设业务针对每个 item 可以选择不同的封面,该特征即是对图片的总结性特征。 |
封面图片的宽度、高度及宽高比 | 如果根据封面图片的像素信息,外露封面的大小不一样,这类特征重要度比较高,用户更愿意点击更大更清晰的图片内容。 |
封面图片的内容 | 如是否有人出现、是否环境图、是否美食图等基于业务特点的图片内容分类定义特征,这种除了单独的 item 特征使用外,和 user、context 交叉使用效果更佳。 |
封面图片上的内容类型 | 一般情况下图片上会针对是否视频、是否案例、是否合集、是否赞助、是否关联商品等 item 内容类型有标志性特征,这类特征也是很重要,不同用户对不同内容类型会有不同的偏好。 |
外露的作者信息 | 一般独热 item 作者的 author_id 即可,此外,有些业务在作者头像上会根据作者级别,会有诸如大V等身份标志,这类特征也会影响用户的点击决策。 |
外露的点赞数 | 如小红书、新氧等社区列表,都会有心标志的点赞数信息,该类特征也对用户决策比较重要,很好解释,用户当然更愿意点击很多人点赞过的帖子。 |
外露的文本信息 | 一般是外露的 item 标题或外露的动态文本(如搜索中 query 命中的文本片段),如搜索中的是否外露文本中高亮 query,或者外露文本中的实体词的一些特征等。 |