我们使用机器学习技术将英文博客翻译为简体中文。您可以点击导航栏中的“中文(简体)”切换到英文版本。
利用合成数据增强股票策略回溯测试:基于代理的模型方法
这篇文章由伊兰·格莱瑟(亚马逊云科技)、Apostolos Psaros(富达投资)、伊戈尔·哈尔珀林(富达投资)、吉姆·杰拉德(富达投资)和罗斯·皮沃瓦尔(亚马逊云科技)撰写。
金融专业人士不断寻找方法来制定和测试有利可图的投资策略。虽然回溯测试是一种关键工具,但历史数据的有限可用性往往限制了其有效性。这份由两部分组成的全面指南探讨了通过基于代理的模型 (ABM) 生成的合成数据如何增强回测能力。
第一部分(本文)将建立我们方法的理论基础。我们将探索合成数据生成的核心原理,研究基于代理的建模框架,并详细介绍我们创建真实市场模拟的方法。本节将特别吸引想要了解我们方法的基本概念和数学基础的读者。
第二部分将侧重于实际执行和成果。我们将深入研究详细的仿真结果,展示真实世界的应用程序,并为使用亚马逊云科技基础设施实施这些模型提供完整的技术指南。本节将特别使希望在自己的工作中应用这些概念的从业者受益。
在这两个部分中,我们将演示合成数据如何帮助克服常见的回测挑战,从历史数据不足到需要不同的市场场景。让我们从支撑我们方法的理论框架开始。
每日数据不足的挑战
回测需要全面的历史数据集,包括价格走势、成交量和其他市场因素,例如新闻事件或经济指标。对于许多市场或证券,尤其是较新或流动性较低的市场或证券,收集足够的每日数据以涵盖各种市场条件具有挑战性。有限的数据可能会导致一些问题,包括过度拟合,即策略在历史时期可能表现良好,但无法适应未来的情况。此外,数据稀缺可能导致缺乏对不同市场阶段的代表性,例如牛市和熊市或波动聚集时期。仅仅依赖历史数据也会引入生存偏见,从而过于乐观地看待历史回报。
解决方案:通过基于代理的模型合成数据
合成数据,尤其是市场 ABM 生成的数据,提供了有效的解决方案。基于代理的建模根据一组规则模拟代理人(例如个人交易者或机构)的互动,从而复制金融市场的复杂动态。这些模型生成了人为但看似合理的数据,为回测股票策略提供了多种优势。
要使用基于代理的市场模拟器,首先需要根据基本统计特征对所选投资领域进行校准。这包括考虑平均回报、每日交易量、波动率和峰度。校准后,合成数据可以复制这些特征以进行情景分析。
合成数据可以通过为市场情景创造无限的可能性,包括尚未发生的极端但现实的事件,从而增加历史数据的数量和种类。研究人员可以改变建模的市场条件和代理人行为,在数字实验室中系统地测试策略在各种市场情景下的表现,仅凭历史数据无法实现这一壮举。
此外,合成市场为策略提供了公正的试验场,消除了先前存在的偏见,例如生存偏见。借助合成数据生成的多样而广泛的情景,可以制定投资策略,以更好地为未来的市场状况做好准备。
使用合成数据进行股票市场回测的好处
这种方法有很多好处。
增强的数据量和多样性:合成数据允许创建几乎无限数量的数据,反映了广泛的市场情景,包括尚未发生但可能发生的极端但可能发生的事件。
对照实验:通过基于代理的模型,研究人员可以系统地改变市场状况或代理人行为,甚至根据不同类型代理人的数量来改变市场构成,探索策略在各种情况下的表现,这仅凭历史数据是不可能的。
创新策略制定:合成数据产生的情景的广度和多样性可以推动更具弹性和灵活性的投资策略的制定,为驾驭不同的未来市场环境做好准备。建立优秀投资组合的量化投资者通常对当前的市场状况有清晰的看法,例如紧张的市场制度。他们可以专注于特定的时间框架,例如接下来的六个月。在这种情况下,他们可以调整模拟器以生成更多类似危机的数据,从而能够严格测试其投资组合的弹性。
股票市场动态
在股票市场中,有几个因素对于决定价格变动和市场流动性的强度至关重要。例如,交易量反映了特定时期内交易的股票数量。科技板块的高交易量可能预示着看涨的市场状况,表明投资者对科技股的浓厚兴趣和信心。波动率衡量一段时间内的回报变化,并对投资产生重大影响。在 2008 年金融危机期间,强行抛售高杠杆头寸引发了整个市场的高波动浪潮。
监测短期和长期价格趋势对于准确评估市场状况至关重要。1990 年代的牛市是由技术和消费者支出的长期趋势造成的。信息技术的快速发展,尤其是互联网和互联网的繁荣,激发了投资者的热情,推动了股价的大幅上涨。
流动性在决定市场深度和价格下滑方面起着至关重要的作用。例如,在 2020 年石油市场崩盘期间,需求的大幅下降和石油供过于求导致油价急剧下跌。缺乏足够的买家来吸收过剩的供应,这导致了市场深度不佳和价格下滑加剧。订单失衡,即买入和卖出订单之间的差异,提供了对市场价格方向压力的见解。公开新闻、谣言和报告可能会影响市场价格和波动性。反映投资者对证券或市场的态度的市场情绪可能会对市场走势产生重大影响。
基于代理的行为
不同类型的代理使用不同的方法做出交易决策。
基本面分析代理考虑经济指标、行业状况和公司财务状况。技术分析代理使用图表模式、过去的价格走势和技术指标来预测市场行为。噪音交易者根据无关的信息采取行动,增加了流动性,但有可能增加市场波动。做市商通过以不同的价格买入和卖出证券来提供流动性。机构投资者代表大型组织,可以通过大量交易推动市场。动量交易者遵循市场趋势,相应地买入和卖出资产。
最后,套利者在不承担定向市场风险的情况下从市场或相关证券之间的价格效率低下获利。
实现基于代理的模型以创建合成数据
实施 ABM 以创建合成数据涉及几个关键步骤。最初,该模型需要从实证观察、证券交易所监管和金融理论中汲取市场规则和代理人行为的基础。仿真运行可生成大量数据集,在短短几小时或几天内模拟多年的市场活动。然后,分析师筛选这些合成数据,应用股票策略来评估各种情景下的表现。
设计基于代理的模型需要仔细定义管理市场机制和代理行为的规则,真实地呈现市场微观结构,并纳入信息传播和交易机制。模型校准涉及调整参数,以复制现实世界数据中观察到的历史市场模式和行为。
在校准过程中,可以调整仿真参数以生成收益分布、波动率聚类效应以及各行业和资产类别的相关性,这些关联性与 2008 年金融危机或最近 COVID-19 疫情市场动荡等时期的实际市场数据中的相关性非常接近。校准有助于建立信心,使生成的合成数据真实可靠,可用于各种潜在未来情景的策略测试。
尽管做出了承诺,但基于代理的模型的可靠性取决于对市场动态、代理行为和用于校准的数据质量的假设。根据观察到的历史先例进行全面校准可确保合成数据的可信度。
股票市场模拟器用例
我们的用例模拟股票市场,重点是危机期间信息不对称在市场行为、效率和稳定性中的作用。它涉及主动(知情)和被动(不知情)资产管理公司在建立投资组合时采用的不同方法,主动管理人使用额外的预测信号来优化投资,但会付出代价。
Garleanu 和 Pedersen(GP 2022)1 开发了一个静态模型,用于分析此类市场的均衡状态。单周期模型仅考虑市场和投资者行为的单一时间段、快照或静态状态。但是,这种方法有很大的局限性。具体而言,它难以解决交易成本等实际问题,包括价格影响和买卖差价。该模型在考虑投资组合优化的多周期性质方面也存在不足之处。我们引用了 Garleanu 和 Pedersen(GP 2022)1 的最新静态模型,该模型分析了此类市场的均衡状态,但该论文强调了单周期模型(一周期模型本质上意味着该模型仅考虑单一时间段、市场快照或静态状态以及投资者行为)在解决价格影响、买入价差和投资组合优化的多周期性质等实际问题方面的局限性。
为了克服这些限制,我们在亚马逊云科技上使用 HPC 服务开发了 ABM,以模拟散户投资者、被动经理和主动经理在更复杂和更现实的金融市场情景中的行为。
这种方法旨在对涉及多个代理人及其决策过程的动态市场情景进行建模。目标是提供对市场动态的更深入的见解,特别是不同类型的资产管理公司和散户投资者如何互动和做出投资决策。这种方法旨在对涉及多个代理人及其决策过程的动态市场情景进行建模,以期为市场动态提供更深入的见解,特别是不同类型的资产管理公司和散户投资者如何互动和做出投资决策。
本文的其余部分概述了模型设置、动态以及这些互动对市场效率和稳定性的可能影响。
我们的股票市场模拟器的三个主要目标
市场模拟器和合成数据正成为旨在回测其策略的市场从业者的相关工具。这些模拟器通常模拟短时间内的市场价格动态,通常从模拟限价订单簿开始。
我们的市场模拟器的与众不同之处在于它对建模原语的创新选择以及对长期模拟的关注。我们的方法论旨在与基本面投资组合经理和分析师的做法保持一致。
这定义了我们的主要建模原语:该过程从对各个公司的基本因素(例如价值和增长)进行建模开始。之后,我们采用多因素模型来整合这些基本因素,并将价格影响作为价格设定机制。这种结构遵循基本面分析师和投资组合经理通常采用的建模框架,他们应用相似的因子模型对未来市场价格进行建模。在这里,我们使用相同的方法,但恰恰相反,简单地假设由一组给定的基本面因素和价格影响函数驱动的市场动态,并在我们的模型中固定系数,从而生成具有与实际市场动态相似统计数据的模型市场动态。
结果是专为长期而设计的市场模拟器,其中市场动态受到基本面因素和价格影响的混合影响,与基本面投资组合经理和分析师使用的传统建模框架保持一致。
我们的市场模拟器框架旨在实现三个主要目标:
- 针对包括主动和被动基金和散户投资者在内的特定市场结构,提供长时间内的市场股票价格动态的真实模拟,以月和年为单位。
- 通过将其他用户定义的代理整合到市场模拟器中,使用户能够探索自定义策略的表现。
- 允许使用市场模拟器作为动态环境来训练自适应(强化学习)代理人。
实际应用
增强的回测功能
验证投资策略的传统方法涉及历史模拟,其中引导历史市场数据以评估策略的表现。在这种情况下,历史市场数据可以看作是某些(可能是高维的)"特征" 向量的路径。
我们可以通过将策略与历史市场数据和特定的影响函数相结合来对任何策略进行回溯测试。该函数本质上是根据策略将市场价格和其他相关特征的单一路径转换为投资组合损益(P&L)的单一路径。交易策略通常包含多个超参数,这使得模拟历史表现的单一路径容易受到过度拟合的影响。但是,我们的模拟器会生成与历史数据一致的完整损益分布,这对于超参数数量有限的策略来说很难过分。
通过这种方式,该框架为评估不同市场情景下的各种投资策略提供了强大的工具,同时降低了回测过度拟合的风险。通过在多个场景中生成夏普比率和亏损率等绩效指标的分布情况,研究人员和从业人员可以获得有关不同策略在不同条件下的功效的宝贵见解。
评估不同市场情景下的策略
仅依赖历史数据的传统回测方法仅针对历史数据集中存在的市场制度对给定策略进行测试。如果历史数据中没有特定的市场制度,例如压力市场或危机市场,则这些方法无法深入了解您的投资组合在这种条件下的潜在未来行为。
相比之下,使用来自 ABM 的综合数据,可以在各种市场情景下评估投资组合的表现,使其成为情景分析的有效工具。通过内在地产生各种市场条件,包括牛市或熊市、高波动期以及诸如 GameStop 空头挤压之类的独特事件。这可以让投资者评估其策略的稳健性并识别潜在的漏洞。
这种全面的方法可以更深入地了解策略在不同市场环境中的表现,从而使投资者能够做出更明智的决策。
在固定市场情景中评估多种策略
情景分析的另一个维度包括修复市场情景,然后探索哪种策略在该情景的多种变体中表现最好。该框架还有助于确定特定策略的表现优于基准策略的市场制度或情景。
通过比较不同市场条件下各种策略的表现,投资者可以确定每种方法的优缺点。这些信息有助于优化投资组合配置,提高相对于基准的整体表现。
总而言之,我们的市场模拟器提供了一种先进而细致入微的回溯测试和策略评估方法,与传统方法相比具有显著的优势。它能够模拟长期市场动态,评估不同条件下的策略,比较固定情景中的多种策略,这使其成为旨在完善投资方法的研究人员和从业者的宝贵工具。
下一步
在本文的第二部分中阅读有关实际实现和结果的信息。我们将深入研究详细的仿真结果,展示真实世界的应用程序,并为使用亚马逊云科技基础设施实施这些模型提供完整的技术指南。
参考文献
1 N.Garleanu 和 L.H. Pedersen,"主动和被动投资:理解萨缪尔森的格言",
《资产定价研究评论》,12(2),389-446,https://doi.org/10.193/parstu/rrab020(2022 年)。
2 Palmer,R.、Arthur、W.、Holland、John、Lebaron、Blake,"人造股票市场",《人工生命与机器人》,https://www.researchgate.net/publication/225471692_An_artificial_stock_market,(1999)。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。