田大伟:我眼中的A股量化20年

图片
图片

作者按:在A股市场上,量化投资还相对小众,作为一名量化投资经理,我也常常需要跟投资人解释,我们投资策略的原理与方法。实际上,我最大的从业感受,就是要不断学习,量化投资方法迭代的速度是很快的。借此机会,也想通过一段虚构的投资者与量化投资经理的对话,来呈现量化投资方法的演进,希望能对读者有所裨益。

本文作者简介

图片
田大伟

田大伟博士为上海财经大学和美国南加州大学(联合培养)金融工程专业博士,具有14年金融从业经验,曾管理多只公募量化基金、量化专户产品,管理资产多元广泛,公募+资管私募双管齐下。现任兴证全球基金专户投资部总监助理、投资经理,拟任基金经理,持续精耕量化投资。

人物简介:

投资者:一位股票市场个人投资者。
经理T:一位从业十多年的量化投资人。
正文:

Chapter 1
早期的量化投资:规则与因子

图片
 投资者:近些年量化投资在A股也出圈了,但对我们这些普通人还是有些不明觉厉。您觉得什么是量化投资?
经理T:A股市场有量化公募基金到现在也就是20年,我觉得这20年间已经经历了三个阶段,初期的量化投资是基于规则的投资,中期是系统化投资,现在是算法交易和机器学习。
早期的量化投资,其实就是基于规则的投资。
 投资者:规则?比如我自己投资股票就有一个规则,PB低于1,ROE大于10%的股票我才考虑。是这种吗?
经理T:是的,您的这个规则和量化投资基本原理是一致的。基于规则,期待成功的经验在未来市场能够复现。量化投资会通过编程对大量历史数据做更完备的检验。
就以您的规则为例,量化投资会在每月初把所有股票按PB高低分组,月末看低PB组合的收益是否大于高PB组合。如果过去十年每个月都这样做,低PB组合能够持续稳定地战胜高PB组合,那么在实践中就可以购买低PB组合来获取超越市场平均水平的收益。
 投资者:听起来也很简单呀?
经理T:是的,基本的思路是这样的,我们把PB称之为PB因子。在实际操作中,我们会尽可能的细分到合适的组数,并在不同的板块、不同的指数、不同的时间等尽可能多的维度对因子进行测试。好的量化因子会在各个组别里都呈现出规律性,这样的量化因子称之为阿尔法因子。
 投资者:看样子,我自己的方法还是有道理的,可是我买的股票也经常亏钱呀。
经理T:估值这个因子,确实有它的优势。市场跌的时候,可能会跌的少些,但还是会亏钱的。
一般单因子很难表现出色,所以量化投资也引入了因子组合的概念。如您的PB低于1,ROE大于10%组合,将低PB和高ROE进行组合。在组合方法上,早期的量化投资将各因子进行线性组合,等权买入,或者把高低因子组合收益差作为权重构建组合。
 投资者:明白了,但历史回测结果不代表未来呀。
经理T:是的,基于规则,期待成功的经验在未来市场能够复现。没有经验来自于未来,所以在回测时不能使用未来数据。同样,也有很多方法来规范回测流程。例如,假设现在是N年,我们可以用N-10年到N-3年的数据来确定各因子组合的权重等参数,用N-2和N-1年的数据来检验这些参数是否仍然有效,如果检验和验证时间段的结果比较一致,那么模型参数是稳健的,用到第N年的投资就会更加放心。

Chapter 2
中期的量化投资:系统化投资与量化对冲

图片
 投资者:所以量化投资就是,不断地找更多的有效因子?
经理T:理论上是这样,但似乎没有总是有效的因子。多年实践下来,我觉得因子只是一棵“树”,量化投资需要的是一片“森林”。成功的量化投资策略需要具有强大的自生力,可以不断繁衍。
 投资者:“森林”?
经理T:这个“森林”就是量化体系。在这个量化体系中,因子开发所用的原始数据需要统一,因子计算通用函数需要统一,因子回测模块需要统一,但因子的组合可以是千变万化。有了这样的量化体系,可以在很短的时间内对新的因子做一次全场景的回测,而不用担心是否使用了错误数据和方法,回测结果是否可比等问题。
 投资者:我好像有点能感觉到编程对于量化投资的重要性了,这些手工计算工作量就太大了。
经理T:是的,有了这个量化体系后,很多流程都模块化,标准化了,量化投研人员就可以站在“巨人”的肩膀上,集中精力进行新因子核心逻辑的研发,就可以腾出时间来做更加精细的研究,来获得更好的投资效果。
 投资者:“精细化研究”,您能举个例子吗?
经理T:好的。还是以PB因子为例,PB低的组合除了PB低之外,还会有其他特征,例如银行股占比高等等,而我们需要的是低PB本身能带来收益,因此需要构建纯PB因子组合。纯因子组合是通过数学优化方法,最大化暴露于某一特定因子,同时最小化其他因子的影响。在实际的因子研发流程中,就会有一个模块,对因子进行行业、市值等其他因子的中性化,尽可能剔除其他影响因素。纯因子之间进行组合时,才能形成1+1大于2的效果。
 投资者:好像有点复杂了,每只股票都有很多特征,市场上并没有纯因子组合可以买呀?
经理T:您的这个疑问非常重要。纯因子组合的研究思路就是量化投资获取超额收益的方法。
以有中证500指数增强量化基金为例。中证500指数是一个由500只股票组合的股票组合。中证500指数增强策略要构建一个新的股票组合来战胜指数成分股组成的股票组合。这个新的组合就是相对中证500成份股的纯阿尔法因子组合,新组合就要在阿尔法因子上的得分要跟中证500指数的成份股拉开差距,其他特征一致。如果我们的阿尔法因子越强越稳定,那么我们构建的新组合相对指数的超额收益也就会越多越稳定。
 投资A:那如果同时卖出等金额的中证500股指期货,是不是就能获得绝对收益了?这也就是我们经常听说的量化对冲吗?
经理T:是的,实践中就是这样做的。另外,如果你选择增强的基准比较强,叠加上阿尔法收益,产品也会具有绝对收益的特征。同时,市场上也有量化产品可以不针对任何基准,只是最大化阿尔法因子得分。
 投资者:如果中证500指数增强可以这样做,其他基准也可以这样增强,对吗?
经理T:是这样的。所以对于量化投资来说,第一步就是寻找有好的阿尔法因子,第二步是构建各种策略组合。在实践中,量化系统可以同时研究和跟踪非常多的因子,各类因子与各类基准进行组合生成不同的产品策略。此时的量化投资就进入了系统化投资阶段。不断丰富量化因子武器库和策略库,以应对不断变化的市场,满足客户的需要。

Chapter 3
现在的量化投资:算法交易和机器学习

图片
 投资者:你们也有这样的“量化系统”吧?你们有多少个因子和策略?
经理T:是的,目前我们的量化系统定期跟踪1000多个因子,逐日跟踪500多个因子,用于构造超额收益策略的基准有30多个。在我们的系统中,每个阿尔法因子和每个基准都会组合产生一个超额收益策略。换句话说,每个基准都有上百个超额收益策略每日计算和跟踪。这对于成熟的量化系统来说,并不是难事。
 投资者:明白,那是不是因子越多、策略越多,量化投资的水平就越高呀?
经理T:也不能这样理解,因为每家量化投资机构因子入库的标准不同。有些机器挖出的因子我们是不作为阿尔法因子看待的,效果不好的因子我们也不会跟踪。所以相对于因子的数量,我更建议关注因子的质量和评价体系,例如如何将一个差因子一步一步研发成好因子,并把这个过程流程化,用于其他因子研发。
 投资者:这么多因子和策略,会在每个产品中使用多个策略吗,会不会让交易变得很复杂?
经理T:说的非常准确。为了维护产品超额收益的稳定性,也为了应对产品规模的增长,会根据实际情况选择不同的策略进行交易。策略多了,交易的股票也就多了。所以量化产品调仓时通常都会同时买卖上百只股票,这时就需要算法交易来帮助我们了。
 投资者:算法交易,是市场上说的高频程序化交易吗?
经理T:不是。我理解高频程序化交易专门是指依赖交易速度来获取收益的策略。算法交易目的是降低交易成本,提高交易效率。例如,时间加权交易(TWAP)是一种算法交易策略,目标是通过将订单均匀分散在一段时间内,使其执行价格接近该时间段内的市场平均价格。量化产品会同时买卖上百只股票,所以在瞬间,TWAP策略也会报出很多交易单子,但报单的规则是按时间均匀分配,是基于已知的、透明的规则。
 投资者:这样说来,量化投资是离不开算法交易的呀。
经理T:是的,特别是随着量化产品规模的增加,算法交易的重要性更加明显。在算法交易和嵌入算法交易的交易系统的加持下,量化投资才能释放出更大的能力,这也是现阶段量化投资的一个重要特征。
而且,除了精准和节约,算法交易还可以进一步利用“逐笔成交数据”来进一步挖掘因子。
 投资者:逐笔成交数据?
经理T:是的,我们普通投资者每天接触的,大多是日频数据,也就是每天的情况。但下单的数据是逐笔委托数据,但单子可能会被不同的对手盘单子吃掉,每次撮合成交的数据就是逐笔成交数据。这种数据交易所也是最近几年才完整提供的,称之为L2数据。
 投资者:每一笔交易都记录成交数量、价格和金额吗?从中挖掘一些交易相关的信息吗?
经理T:是的,L2数据可以说包含了大量详实的量价信息。如果市场上5000多只股票每天的逐笔成交和逐笔委托等L2数据都获得并存放成CSV文件,那么每天有几十G的量,这些数据是量化投资寻找阿尔法因子的宝库。
有了L2数据,我们可以构建每天特定时间段的因子,例如收盘前30分钟的因子,也可以从L2数据中筛选出“大额”资金成交或者委托的信息,或者是主动买入、卖出等信息等,这样构建的因子信息是非常丰富的。
 投资者:那有没有更新的方法来处理这些数据呢?
经理T:非常好的问题。肯定是有的,处理好这些数这不仅需要算力的提高,也需要方法论的进步,其中之一就是机器学习方法。机器学习方法包含的类型很多,我们可以先聊聊其中的一种:遗传规划。
 投资者:遗传规划?听起来跟生物进化有关。
经理T:是的,遗传规划方法就像 “编程魔术”,通过编程模拟生物进化过程,寻找各个量化因子之间的秘密公式,来产生更好的量化因子。首先是随机生成一堆可能的公式,这些公式就像是生物的基因,让它们“繁殖”,交换或者变异上一节点公式的组成部分,生成新的公式。不断重复这个过程,让这些公式一代一代进化,直到找到能够满足因子评价指标的公式。
 投资者:遗传规划听起来就像是机器在自我学习一样呀。
经理T:是的。遗传规划最终生成的是公式,这些公式虽然复杂,但还是可以直接看到公式的结构,可以做些理解的。但以神经网络为代表的机器学习模型迭代出的结果是没有公式的。
 投资者:没有公式,那么机器学习具体是什么样的呢?
经理T:神经网络类机器学习跟遗传规划一样,把类似高开低收等朴素的因子输入到模型中,模型会在 “训练数据集”中不断调整自己的内部参数,找出哪些数据特征和未来股票涨跌有关系。并通过“验证数据集”来验证模型的结果是否样本外稳健,确定最终的模型参数。模型训练好后,每当输入给模型新的数据时,模型就会自动经过内部参数的运算,生成预测值,也就是我们的机器学习类因子。
 投资者:机器学习听起来很强大,但TA可能不理解股票市场的运行逻辑,真的可以像人一样“做投资”吗?
经理T:机器学习本质是对大量数据进行非线性组合来寻找X与Y之间的稳定关系。还记得在早期量化阶段各因子的线性组合吗?机器学习可以把高开低收等各类朴素因子通过加减乘除等各类公式生成一系列特征因子,把这些特征因子彼此连接通过“激活函数”进行非线性组合,并一代一代向前传播,来预测出Y值。比较预测Y值与真实Y值之间的差异,再反向通过调整传播过程中的各个参数值,使得预测值逼近真实值,从而确定一组合格的参数。
 投资者:我的PB和ROE组合可没有这么复杂,我一般就是50%的PB与50%的ROE进行组合,像你说的这些大量的非线性组非常难以实现吧?
经理T:机器学习的基本原理很直观,反向传播微调参数来减少预测Y与真实Y之间差异,也可以运用数学上的“微分导数”理论。在实践中,可以使用Facebook公司开发的PyTorch这样的机器学习框架来完成整个模型的搭建。关键是模型的准确性。模型本身、数据和算力都很重要。如果不对机器学习基本原理,各类数据特点等有比较深入的理解,机器学习模型的结果是很难进一步提高,或者在使用时很容易出现“过拟合”等问题。
 投资者:您刚才说输入给机器学习的是量价数据,目前机器学习还能处理其他数据吗?
经理T:机器学习不仅能处理量价数据,还可以处理图片数据和文本数据等。例如模型学习股票历史K线图形之间的顺序关系,来预判未来走势。对于文本数据,例如分析师研究报告的内容,可以先切成很多词组,通过对已有词组情绪标签的对比学习来对新的文本数据给出情绪标签,从而量化成一个因子等等。
 投资者:你们的机器学习跟ChatGPT这样的大模型有什么区别?
经理T:ChatGPT是处理文本数据的模型,也是一种神经网络模型,并且现在OpenAI公司越来越多的使用PyTorch来训练最新版ChatGPT,这些都是一样的地方。ChatGPT被称为大模型,可能是因为模型的参数非常多,据说新一代的模型有上千亿个参数需要训练。因为股票市场的股票数量有限,数据量较少以及算力、能力等等原因,我们的机器学习模型的参数要远远少于大模型。
 投资者:那机器学习模型有不足的地方吗?
经理T:机器学习模型就像一个精巧的镜头,使用时手稍微一抖,拍出的照片就会模糊。所以在实践中,我们在PyTorch的基础上构建了一个机器学习框架,并融入到量化系统中。这个框架可以帮助我们方便地使用统一的数据源,统一的特征计算方法包,统一的策略参数配置文件,统一的源模型,统一的模型结果存储和展示等,以帮助我们降低模型研发过程中的差错和提高模型研发的效率。
 投资者:算法交易、机器学习,感觉现在的量化投资方法越来越复杂,那么你们还会使用财务数据,使用之前的朴素的量化方法吗?
经理T:当然会使用。数据多但与股票涨跌无关也是无用的,方法越复杂也越难以有效把控。财务数据、事件数据、一致预期数据、简单的日频量价数据都是量化研究的重点,机器学习等方法我们也在不断学习,融入到整个量化体系当中,以提高我们因子库的质量,提高策略业绩和产品业绩的稳定性。
 投资者:聊了这么多,感觉量化投资像是在打造一台投资机器呀?
经理T:是的,量化投资就是团队成员彼此分工构建和迭代生产策略的流水线。

Chapter 4
未来的量化投资:人工智能和金融工业化

图片
 投资者:现在的量化投资方法听起来已经很复杂了,不知道未来会怎么样?
经理T:未来的量化投资方法已经在孕育中了,只是目前还没有特别好的成果。例如强化学习方法就像在虚拟的市场环境中进行“交易”,根据交易结果的好坏得到“奖励”或者“惩罚”来修正交易过程,直接给出“最优”的买卖信号。那时可能就步入了人工智能和金融工业化阶段。
 投资者:听起来很科幻。
经理T:我也很期待,也在不断学习中。总体而言,股票市场是个复杂市场,量化投资还很年轻,主动量化产品的总规模和单个产品规模都相对较小,量化产品的业绩波动也很大,需要更长时间的检验。
 投资者:谢谢你,希望十年后我们再来聊聊这个话题。
经理T:是的,我自己也很期待。

将兴证全球基金设为“星标”⭐

不错过精彩内容!

图片

优选好文

图片

图片
风险提示:观点仅代表个人,不代表公司立场,仅供参考,不作为投资建议,观点具有时效性。
田大伟投研经历:2010年4月至2018年3月,就职于光大保德信基金管理有限公司,历任金融工程师、首席策略分析师、投资经理、基金经理、绝对收益投资部总监。2018年4月至2023年9月,就职于华鑫证券资产管理总部,历任副总经理、投资总监、资管量化投资部总经理、投资经理。2023年9月至今,就职于兴证全球基金管理有限公司,现任专户投资部总监助理兼投资经理、兴证全球红利量化选股股票型基金拟任基金经理。
兴证全球基金承诺以诚实信用、勤勉尽责的原则管理和运用基金财产,但不保证基金一定盈利,也不保证最低收益,投资人应当认真阅读本基金基金合同、招募说明书等基金法律文件,了解本基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断本基金是否和投资人的风险承受能力相适应,自主判断基金的投资价值,自主做出投资决策,自行承担投资风险。我国基金运作时间较短,不能反映股市发展的所有阶段。基金管理人管理的其他基金的业绩或拟任基金经理曾管理的其他组合的业绩不构成基金业绩表现的保证。过往业绩并不预示未来,基金收益有波动风险。基金投资须谨慎,请审慎选择。