特征工程

特征工程使用方案

特征工程 深度学习

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/feature_engineering-usage.html

特征使用方案详解


在确定了业务目标之后,我们需要确定使用哪些数据来达到目标。需要事先梳理哪些特征数据可能与目标相关,尽可能的找出对因变量有影响的所有自变量,然后对数据可用性进行评估,包括获取难度、覆盖率、准确率等。

可用性评估

在确定好要使用哪些数据之后,我们需要对使用数据的可用性进行评估,包括数据的获取难度,数据的规模,数据的准确率,数据的覆盖率等。

  • 数据获取难度,例如获取用户id不难,但是获取用户年龄和性别较困难,因为用户注册或者购买时,这些并不是必填项。即使填了也不完全准确。这些特征可能是通过额外的预测模型预测的,那就存在着模型精度的问题。
  • 数据覆盖率也是一个重要的考量因素,例如距离特征,并不是所有用户的距离我们都能获取到,PC端的就没有距离,还有很多用户禁止使用它们的地理位置信息等;对于用户历史行为,只有老用户才会有行为;对于用户实时行为,如果用户刚打开 app,还没有任何行为,同样面临着一个冷启动的问题。
  • 数据的准确率,因为从网上或者其他地方获取的数据,会由于各种各样的因素(用户的因素,数据上报的因素)导致数据不能够完整的反映真实的情况,这个时候就需要事先对这批数据的准确性作出评估。如订单质量、用户性别等,都会有准确率的问题。