在确定了业务目标之后,我们需要确定使用哪些数据来达到目标。需要事先梳理哪些特征数据可能与目标相关,尽可能的找出对因变量有影响的所有自变量,然后对数据可用性进行评估,包括获取难度、覆盖率、准确率等。
可用性评估
在确定好要使用哪些数据之后,我们需要对使用数据的可用性进行评估,包括数据的获取难度,数据的规模,数据的准确率,数据的覆盖率等。
- 数据获取难度,例如获取用户id不难,但是获取用户年龄和性别较困难,因为用户注册或者购买时,这些并不是必填项。即使填了也不完全准确。这些特征可能是通过额外的预测模型预测的,那就存在着模型精度的问题。
- 数据覆盖率也是一个重要的考量因素,例如距离特征,并不是所有用户的距离我们都能获取到,PC端的就没有距离,还有很多用户禁止使用它们的地理位置信息等;对于用户历史行为,只有老用户才会有行为;对于用户实时行为,如果用户刚打开 app,还没有任何行为,同样面临着一个冷启动的问题。
- 数据的准确率,因为从网上或者其他地方获取的数据,会由于各种各样的因素(用户的因素,数据上报的因素)导致数据不能够完整的反映真实的情况,这个时候就需要事先对这批数据的准确性作出评估。如订单质量、用户性别等,都会有准确率的问题。