特征类型
一般来说,推荐系统中会有离散特征(如性别、位置)和连续特征(如年龄),当我们将特征值转换为输入数据时,就需要对离散特征进行one-hot编码,然后对连续特征保留其原始数值,也可以对连续特征进行离散化。
例如:般来说,推荐系统中会有离散特征和连续特征,当我们用逻辑回归这种宽的离散线性模型的时候,我就会遇到一个很大的问题,就是我需要对特征进行分段,这样才能学到连续特征的非线性结构。比如说用户年龄对点击率的影响,它并不是线性上升的,可能更多的是与年龄段相关,甚至有更复杂的模式,这些是非线性的特性。所以我们可以用机器对连续的特征做自动搜索分段,这样的预处理效率就大大提高了。