用户行为配置文件作为ML特征存储中的构建块

房地产个性化服务为家庭购买经验的不同阶段提供个性化房地产内容。个性化服务的主要步骤之一是了解客户。

机器学习(ML)在构建个性化服务方面发挥着重要作用。我们在不同的组件中使用许多ML模型,例如个性化建议,个性化搜索和智能标记来命名几个。

开发任何ML应用程序和模型中最重要的步骤之一是特征工程。这一步在高质量的结果中起着重要作用。在此阶段,将原始数据清除并转换为ML模型可以理解的功能。高质量的功能意味着业务在客户参与和货币化等不同阶段获得更好的结果。

任何个性化服务中使用的基本功能之一是与用户相关的行为功能。这类功能是在Realtor.com上与我们的服务互动的介绍。在这篇文章中,我们将解释我们在不同型号中使用的重要特征和行为。这是特征存储中最重要的组件之一,我们收集并管理不同个性化服务的重要消费类功能。

拍摄者Franki Chamaki.uns

在下一节中,我们将简要介绍一下要素商店的高级架构。

ML Feature Store的简要概述

每个数据科学项目的第一步是找到或创造重要的功能和信号来解决问题。许多ML项目需要一些常见的项目中常见的核心功能。确定这些功能并组织它们有助于了解数据科学的发展。以下是生成功能的一些常用技术:

  • 将分类数据转换为数字数据
  • 规范数据 
  • 单常规
  • 特征箱(将连续功能转换为带有不同桶的离散值)
  • 通过将高维数据减少到较低空间(尤其是图像和文本数据)来嵌入
  • 数据和指标的统计描述(平均值,中位数,STDDEV,IQR)

ML Feature Store提供用于注册,搜索和使用这些重要功能的集中位置。下图显示了与房地库数据产品相关的功能商店的高级组件。它由两个主要层组成:批量功能实时功能.

在批处理功能中,通过批处理从数据湖中的原始数据中提取所有功能。通常通过使用AWS Athena或AWS胶水/火花等SQL发动机来提取这些功能。然后将提取的特征持续到诸如DynamoDB或诸如AWS S3的对象文件系统之类的数据库。

由于他们的SLA,实时功能有点复杂。在某些应用中,例如欺诈检测,这些需要在不到100毫秒的时间内完成。 AWS流胶水和弹性一框架通常用于实现实时管道。

在下一节中,我们将在我们的批处理模式操作和相关架构中查看我们的用户真实行为配置文件和功能。

用户真实行为配置文件概述及其管道架构

通常,功能分为两个主要类:连续特点分类特征

连续特点可以有任何实数值 如房价或平方英尺。分类价值是城市,列表类型或架构风格的任意数值组。下图描绘了我们的高级功能。

在真实行为配置文件中,我们在指定时间段内聚合来自访问者的隐式偏好。我们收集各种信息,如价格偏好,床位和访客的浴室。通过这些信息,我们计算一些描述性统计数据。对于我们的计算,我们已将偏好分为两类:连续功能,例如价格,或批次平方英尺分类功能,如床和浴室数量。此外,我们将分类特征分段为一般分类特征(床和浴)和地理分类特征(拉链和城市)。 我们还计算最近的首选项,并将它们与用户的整体行为进行比较,以检查用户偏好是否最近更改并计算其行为的显着变化。我们还将数据分段为记录,因此当访问者提交铅或分享/保存列表时,我们检查这些记录的访问者的首选项是否有重大变化,并计算检查是否为真。

对于连续的功能,我们汇总了平均值,中位数和置信区间等统计数据。对于一般性分类功能,我们通常将记录汇总为相对比例,以及该类别的成功。与地理分类功能,如邮政编码和城市/国家,我们也实施了一个叫做的模型 半衰期回归 (HLR.)在各个类别中介绍新的手表。对于我们的用例,我们将GEO类别标记为基于HLR模型预测的值的顶部GEOS。基于我们的分析,我们选择了顶级地理位数为5.例如,如果访问者在10个不同的邮政编码中访问了30个列表,则该模型将预测得分表示回忆和访问计数的最佳组合邮政编码考虑,并将前五个邮政编码标记为“顶级地理”,得分最高。以这种方式,我们能够捕获访问者的新近行为,从而减少给定邮政编码中访问的偏差。 

下图描绘了我们的批处理管道,用于生成这些功能:

在第一阶段,我们将AWS S3的用户交互数据作为我们的数据湖的一部分。然后我们使用AWS Athena进行数据清理和初始预处理运行SQL查询。然后将结果在S3桶中进行。主要特征工程作业是在AWS EMR Spark集群中执行的。一旦我们完成了功能生成,我们将在AWS DynamoDB中保存结果作为我们的密钥是消费者ID的键值,并且该值是功能。

结论和备注

在本博客文章中,我们简要介绍了我们的特征存储概念和用户行为配置文件。我们在许多ML应用程序中使用这些功能,例如匹配得分和智能通知。我们继续在Realtor.com上改进并扩展用户行为配置文件和我们的功能存储。

最后,我们要感谢将该模块释放到生产中的建议,尤其是Jayakrishnan Vijayaraghavan,Sohrab Seyed Fathi,Saivaryk Kanaparthy,Aishwarya Bose,Srinivasulu,Krishna Kumar,Lakshmi Doddi,Davood Alishahian,Latife Genc Kaya和Ivon Hom。

发表评论

您的电子邮件地址不会被公开。必需的地方已做标记*