特征工程

特征工程使用方案

特征工程 深度学习

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/feature_engineering-usage.html

特征使用方案详解


在确定了业务目标之后,我们需要确定使用哪些数据来达到目标。需要事先梳理哪些特征数据可能与目标相关,尽可能的找出对因变量有影响的所有自变量,然后对数据可用性进行评估,包括获取难度、覆盖率、准确率等。

可用性评估

在确定好要使用哪些数据之后,我们需要对使用数据的可用性进行评估,包括数据的获取难度,数据的规模,数据的准确率,数据的覆盖率等。

  • 数据获取难度,例如获取用户id不难,但是获取用户年龄和性别较困难,因为用户注册或者购买时,这些并不是必填项。即使填了也不完全准确。这些特征可能是通过额外的预测模型预测的,那就存在着模型精度的问题。
  • 数据覆盖率也是一个重要的考量因素,例如距离特征,并不是所有用户的距离我们都能获取到,PC端的就没有距离,还有很多用户禁止使用它们的地理位置信息等;对于用户历史行为,只有老用户才会有行为;对于用户实时行为,如果用户刚打开 app,还没有任何行为,同样面临着一个冷启动的问题。
  • 数据的准确率,因为从网上或者其他地方获取的数据,会由于各种各样的因素(用户的因素,数据上报的因素)导致数据不能够完整的反映真实的情况,这个时候就需要事先对这批数据的准确性作出评估。如订单质量、用户性别等,都会有准确率的问题。
es ltr 里有特征仓库的概念,一个特征仓库其实就是一个 es 的索引,可以存储特征和模型的元数据。 ...
随着 Redis NoSQL 数据库的日渐流行,使用它的公司越来越多,它不仅用做缓存,同时也进行业务数据存储所用,随着 redis 存储数据 ...
特征工程是指确定哪些特征可能在训练模型方面非常有用,然后将日志文件及其他来源的原始数据转换为所需的特征。有这么一句话在业界广泛流传:数据和特 ...
特征工程,是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。特征工程是机器学习、深度学习中不可或缺的一部分,在 ...
搜索系统的特征体系的前瞻性设计是一个一劳永逸的工作,合理的设计可以为日后算法迭代工作提供高效的开发效率,本文以作者的实际经验抽象出了搜索系统 ...