2023 年旧金山大学数据科学会议 Datathon 与 亚马逊云科技 和亚马逊 SageMaker Studio Lab 合作举办

作为 2023 年数据科学会议 (DSCO 23) 的一部分,亚马逊云科技 与旧金山大学 (USF) 数据研究所合作举办了一场数据马拉松。参赛者,包括高中生和本科生,参与了一个以空气质量和可持续发展为重点的数据科学项目。南佛罗里达大学的数据研究所旨在支持数据科学领域的跨学科研究和教育。数据研究所和数据科学会议将尖端学术研究与旧金山湾区科技行业的创业文化完美融合。

学生们使用了 亚马逊 SageMaker Studio La b,这是一个免费平台,为 JupyterLab 环境提供计算(CPU 和 GPU)和存储(最大 15GB)。由于大多数学生不熟悉机器学习 (ML),他们得到了一个简短的 教程,该教程 说明了如何设置机器学习管道:如何进行探索性数据分析、特征工程、模型构建和模型评估,以及如何设置推理和监控。 该教程引用了来自美国国家海洋与大气管理局 ( NOAA ) 和 OpenA Q 的 亚马逊可持续发展数据倡议 (ASDI ) 数据集, 以构建机器学习模型,通过二进制分类AutoGluon模型使用天气数据预测空气质量水平。 接下来,学生们可以自由地在自己的团队中做自己的项目。获胜队伍由彼得·马、本·韦尔纳和艾·科尔廷领导,他们在南佛罗里达大学数据科学会议开幕式上均获奖。

来自事件的回应

“这是一次有趣的活动,也是与他人合作的好方法。我在课堂上学到了一些 Python 编码,但这有助于实现它。在数据马拉松期间,我和我的团队成员对不同的机器学习模型(LightGBM、逻辑回归、SVM 模型、随机森林分类器等)及其在 NOAA 的 AQI 数据集上的性能进行了研究,该数据集旨在检测特定天气条件下大气的毒性。我们构建了一个梯度提升分类器,用于根据天气统计数据预测空气质量。”

— Anay Pant,加利福尼亚州丹维尔雅典学校的大三学生,也是数据马拉松的获胜者之一。

“人工智能在工作场所变得越来越重要,82%的公司需要具有机器学习技能的员工。我们必须培养所需的人才,以打造我们所有人都能从中受益的产品和体验,包括软件工程、数据科学、领域知识等。我们很高兴能帮助下一代建筑商探索机器学习并试验其功能。我们希望他们能推进这一目标并扩展他们的机器学习知识。我个人希望有一天能使用本次数据马拉松中一位学生开发的应用程序!”

— 雪莉·马库斯,亚马逊云科技 机器学习解决方案实验室主任。

“这是我们第一年使用 SageMaker Studio Lab。我们很高兴高中生/本科生和我们的研究生导师能够如此迅速地开始他们的项目并使用 SageMaker Studio 进行协作。”

— 旧金山大学数据研究所的黛安·伍德布里奇。

开始使用 Studio Lab

如果你错过了这次数据马拉松,你仍然可以 注册自己的 Studio Lab 帐户 并参与自己的项目。如果您有兴趣举办自己的黑客马拉松,请联系您的 亚马逊云科技 代表,获取 Studio Lab 推荐码,这将使您的参与者立即访问该服务。最后,你可以在南佛罗里达大学数据研究所寻找 明年的挑战赛


作者简介

Neha Narwal 是 亚马逊云科技 Bedrock 的机器学习工程师,在那里她为生成式 AI 应用程序开发大型语言模型做出了贡献。她的重点是科学与工程的交汇点,以影响自然语言处理领域的研究。

Vidya Sagar Ravipat i 是生成式人工智能创新中心的应用科学经理,在那里他利用自己在大规模分布式系统方面的丰富经验和对机器学习的热情,帮助不同垂直行业的 亚马逊云科技 客户加速其人工智能和云的采用。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。