基于大数据的机器学习如何处理数据集呢？

发布于: Aug 23, 2022

基于大数据的机器学习不可避免的会遇到海量数据，如何存储、发现并共享这些数据呢？最新推出的 Amazon SageMaker Feature Store 功能可帮你解决这一问题。

使用 Amazon SageMaker Feature Store 存储及检索特征

在数据之上运行特征工程代码之后，您可以将工程处理后的特征按组的形式组织并存储在 SageMaker Feature Store 当中。特征组属于记录的集合，类似于表中的行。每条记录都拥有唯一标识符，并保存原始数据源内某一数据实例的工程特征值。作为可选项，您还可以选择使用自己的 Amazon 密钥管理服务（KMS）密钥对静态数据进行加密。各特征组分别使用唯一的密钥。

您可以随意定义各个特征组。例如，您可以为每种数据源（CSV 文件、数据库表等等）创建一个组，也可以方便地使用唯一列作为记录标识符（主键、客户 ID、事务 ID 等）。

在完成分组之后，即可各个组重复以下操作步骤：

1.	创建特征定义，并在记录中保存每项特征的名称与类型
(Fractional, Integral
或者
String
)。
2.	使用 
create_feature_group()
 API创建各个特征组：
3.	sm_feature_store.create_feature_group(
4.	     # 特征组的名称
5.	     FeatureGroupName=my_feature_group_name,
6.	     # 用作记录标识符的列名称
7.	     RecordIdentifierName=record_identifier_name,
8.	     # 作为特征时间戳的列行为名称
9.	     EventTimeFeatureName = event_time_feature_name,
10.	     # 特征名称与类型清单
11.	     FeatureDefinitions=my_feature_definitions,
12.	     # 离线特征存储库的S3位置
13.	     OfflineStoreConfig=offline_store_config,
14.	     # 可选项，启用在线特征存储库
15.	     OnlineStoreConfig=online_store_config,
16.	     # 一个IAM角色
17.	     RoleArn=role
)

18.	在各个特征组内，使用 
put_record()
 API存储包含特征名称/特征值对的集合记录：
19.	sm_feature_store.put_record(
20.	   FeatureGroupName=feature_group_name,
21.	   Record=record,
22.	   EventTime=event_time
)

为了加快数据摄取速度，您可以创建多个线程以实现操作并行化。

到这里，Amazon SageMaker Feature Store 即可提供各项特征。以离线存储库为基础，您可以使用 Amazon Athena, Amazon Web Services Glue 或者 Amazon EMR 等服务构建供训练使用的数据集：在 S3 中获取相应的 JSON 对象、选择必要的特征，而后以机器学习算法需要的格式将其保存在 S3 当中。之后的工作即可全部交给 SageMaker，就这么简单！

除此之外，您也可以使用 get_record() API 访问在线存储库内存储的各具体记录，并传递组名称与待访问记录的唯一标识符，如下所示：

record = sm_feature_store.get_record(
    FeatureGroupName=my_feature_group_name,
    RecordIdentifierValue={"IntegralValue": 5962})

Amazon SageMaker Feature Store 专为实时推理场景下的高效访问需求与设计，对于 15 KB 的载荷，可以 95% 的概率将预测中的延迟控制在 10 毫秒以内。凭借这种能力，大家可以在预测过程中查询工程特征，并将上游应用程序发送的原始特征替换为模型训练时曾经使用的具体特征。通过这种方式，我们可以消除特征不一致问题，帮助大家将精力集中在最佳模型的构建当中。

最后，SageMaker Feature Store 当中包含特征创建时间戳，因此大家可以根据特定时间点检索特征状态。

如果将 Amazon SageMaker Feature Store 与 SageMaker Studio 相集成，我们可以看到两个特征组。