特征工程

特征工程使用方案

特征工程 深度学习

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/feature_engineering-feature-example.html

搜索推荐广告等场景的特征选取使用经验谈


本文以作者的实际经验列出了基于点击、转化等目标的选取使用的特征分享,主要是针对搜索、推荐、广告等典型场景的实践,读者可以结合实际业务特点参考如下内容。

特征选取分类

特征一般定义为三大类,分别为上下文特征(Context)、用户特征(User)和 Item 特征(Item),当然再细化后,还会有 Context-Item、User-Item 等交叉特征。

场景

社区推荐/搜索

如以类似小红书、新氧等的社区帖子推荐/搜索列表展示为例子,可以如下的思路进行特征选取:

  1. 社区帖子列表中的可视化因素都可以整理成特征;
  2. 由于帖子列表占大头是封面图片,用户是否进行点击封面图片起到关键作用,可以细化封面图片特征的提取。

一般帖子列表中外露特征基本都属于 item 侧特征,示例如下:

特征 描述
封面图片的 ctr 假设业务针对每个 item 可以选择不同的封面,该特征即是对图片的总结性特征。
封面图片的宽度、高度及宽高比 如果根据封面图片的像素信息,外露封面的大小不一样,这类特征重要度比较高,用户更愿意点击更大更清晰的图片内容。
封面图片的内容 如是否有人出现、是否环境图、是否美食图等基于业务特点的图片内容分类定义特征,这种除了单独的 item 特征使用外,和 user、context 交叉使用效果更佳。
封面图片上的内容类型 一般情况下图片上会针对是否视频、是否案例、是否合集、是否赞助、是否关联商品等 item 内容类型有标志性特征,这类特征也是很重要,不同用户对不同内容类型会有不同的偏好。
外露的作者信息 一般独热 item 作者的 author_id 即可,此外,有些业务在作者头像上会根据作者级别,会有诸如大V等身份标志,这类特征也会影响用户的点击决策。
外露的点赞数 如小红书、新氧等社区列表,都会有心标志的点赞数信息,该类特征也对用户决策比较重要,很好解释,用户当然更愿意点击很多人点赞过的帖子。
外露的文本信息 一般是外露的 item 标题或外露的动态文本(如搜索中 query 命中的文本片段),如搜索中的是否外露文本中高亮 query,或者外露文本中的实体词的一些特征等。

 

在确定了业务目标之后,我们需要确定使用哪些数据来达到目标。需要事先梳理哪些特征数据可能与目标相关,尽可能的找出对因变量有影响的所有自变量,然 ...
Redis丰富的数据存储结构及基于内存的高性能操作使得其在很多应用场景中大显身手。以下列举了一些常涉及Redis的应用场景。 ...
Elasticsearch是一个开源的分布式搜索和分析引擎,旨在处理大规模数据的搜索、分析和可视化。地理空间数据分析:Elasticsear ...
搜索系统的特征体系的前瞻性设计是一个一劳永逸的工作,合理的设计可以为日后算法迭代工作提供高效的开发效率,本文以作者的实际经验抽象出了搜索系统 ...
es ltr 里有特征仓库的概念,一个特征仓库其实就是一个 es 的索引,可以存储特征和模型的元数据。 ...