量化增强——指数增强的新姿势

图片

在12月11日的《拥抱指数化浪潮——指数增强基金全景报告》发布会上,兴证全球中证A500指数增强拟任基金经理田大伟与中国基金报记者吴娟娟进行了一场对谈,为投资者解读了量化增强这一增强策略的优势和适用范围。以下为这场对谈的实录。

量化指增有哪些方法?
图片
 吴娟娟:近年来全球指数化投资迎来蓬勃发展,指数产品规模稳步增长,指数增强基金由于兼具主动和被动投资优势,受到越来越多投资者的关注和青睐。与此同时,指数化投资正越来越多地使用量化策略。今天我们请到了兴证全球中证A500指数增强的拟任基金经理田大伟博士。我想先从一个比较普遍的问题来问起,可以说指数化的风终于吹到了A股,今年3季度权益指数基金的规模增长超过一万亿元,田博怎么看这个趋势?

田大伟:这个趋势可能是投资者对产品的收益风险特征明晰化要求越来越高的一种体现。很多投资者的投资体验不好,并不完全因为市场比较疲软,很多情况下是因为产品的波动过大,导致他们持有的时间不够长。如果一个产品的收益风险特征比较明晰,投资者可能会长期持有,那么最终的效果应该是不错的。因为指数产品的收益风险特征与指数一致,持有人能够看得比较清晰,可能更愿意长期持有。指数产品的规模越来越大,我想可能有这方面的原因。

 吴娟娟:我国的指增基金先于纯被动指数基金出现,2002年有一只上证180的指增基金出现,这是非常有意思的一点。但是目前指增基金总体的规模还不算太大,这个背后的原因是什么?

田大伟:被动指数产品规模很大的情况下,指数增强产品的规模也应该相对来说比较大,但是我们看到差距还不少。大家去购买指数产品,是看到指数产品的收益风险特征比较明确,指数增强产品要做出超额收益来,并且超额收益比较稳定,大家才会去大规模购买和持有。因此指增产品的规模相对被动产品比较小,可能还是因为它的超额不够稳定。     

 吴娟娟:超额不够稳定的原因是什么? 
田大伟:每位基金经理各有不同的相对优势,表现出的产品收益特征也就不一样。像中证500或者沪深300这样的宽基指增产品,市场的平均超额还是比较明显的。从现在往回看五年,市场上公募沪深300指增和中证500指增产品的平均超额收益都在20个点以上。 
 吴娟娟:能不能介绍一下,量化方法在指增领域扮演着什么样的角色?

田大伟:量化方法比较适合做指增。量化方法比较守纪律,它研究的不是单个股票,是一个股票组合,对于一个组合来说,量化方法可以对风险做出更加细致和严格的约束。比如说模型持仓的行业占比、市值等风格与标的指数的一致性约束;持仓股票权重与该股票在成份股中原始权重偏离约束;调仓频率和换手率约束等,量化方法可以比较方便地细化和纳入这些约束条件。通过约束条件的控制,使得新组合贴住对标指数,之后通过持仓组合在阿尔法因子得分高于成份股组合来谋求超额收益。

另一个重要的特征是量化方法管理产品的边际成本会降低。因为对于不同指数,量化系统和风险因子、阿尔法因子很多都是可以共用的,所以当量化团队管理的产品数据增加时,单个产品的边际成本会降低。           

 吴娟娟:您刚才提到的量化方法,是不是可以简单认为是基于一套严谨的规则来选股?

田大伟:量化的基本原理可以理解为先有一个投资的逻辑,再用历史数据尽量做一个比较完整的检验,期待这个逻辑在未来能够重复。我可以给您举一个量化方法的例子,比如说选择低估值股票是一个很好的选股逻辑,那么在T时刻把市场上股票估值,比如PB值计算一遍,同时计算这些股票未来10天的涨跌幅,就可以计算出T时刻股票估值和未来10天涨跌幅的相关性,在T+1、T+2、T+3等时刻也可以这样计算,把每个时刻相关性值做一个累加图,如果这个累加图的斜率是稳定向上的,表明相关性是持续稳定的,这就是一个简单的单因子检验。然后单因子之间做混合,找到更加稳定的相关性。之后就是构建股票组合,目标就是最大化混合因子得分,因为因子得分越高,未来收益就越高,同时要满足一定的约束条件。这就是量化的一个比较基本的原理。 

 吴娟娟:听起来就是基于很多的历史数据,做出了一个有统计重要性的相关性分析。    

田大伟:可以这样理解,没有经验来自于未来,这个过程中有很多流程和规范。比如说检验的时间维度,我可以用2015年到2020年的数据来做这个检验,然后再用2021年到2023年的数据做验证。如果两个时间段效果都较好,那么参数稳定性就比较高,在实践中成功的概率也会比较高。这只是其中一个维度,整个策略研发过程中的规范是比较多和严谨的。

 吴娟娟:在量化指增领域有哪些主流的投资方法,可以给大家介绍一下。    

田大伟:量化指增的主流方法是多因子方法。量化指增是分两步做的。第一步是控住风险,例如持仓是在指数成分股里面抽取一个新的组合,新组合在行业和市值等风格方面跟对标的指数保持一致。第二步是依靠阿尔法因子获取超额收益。刚才讲的估值算是一个阿尔法因子,低估值的股票作为一个整体往往具有超额收益,但是这一个阿尔法因子还不够,还可以加上盈利增速。像估值和盈利增速都算是基本面因子,可能也还不够,那么再增加新维度,比如说高频量价、机器学习因子等,这就是多因子混合。像兴证全球中证A500指增产品的储备策略,我们使用的因子大概有200个,来自于不同的大类,这就是多因子方法。多因子想表明的是收益来源于不同的维度,本质上还是希望超额收益来源比较分散,比较稳定。

 吴娟娟:您刚才提到A500指增有200个因子, 200个因子在行业处于什么位置?另外我们怎么去挖掘这些因子呢?

田大伟:因子也不是数量越多越好,每家都有自己的方法论,我个人的习惯是尽量使收益来源更加多元,这个多元不仅仅体现在因子的数量上,也体现在因子的大类上。比如说有些来自于基本面,有些来自于高频量价,有些来自于机器学习。即使是来源于不同的大类,里面的单个因子也希望它的历史检验是比较稳定的。以估值为例,这个因子在中证A500指数成分股里跟股票的未来涨跌幅之间的相关度其实是不够高的,在某一个时间段甚至还是负的,这就需要其他因子作为收益来源的补充。我们会定期跟踪一千多个因子,选取500多个因子每天跟踪,每天都会计算它的因子值,与未来不同时间段涨跌幅的相关度。不仅计算全市场范围的股票,也计算A500、沪深300或者是中证1000、中证2000等不同指数成份股范围内的股票,也会计算分组情况,比如说用因子值给股票分组,分五组、十组等,观察每一组收益是否有规律的排序。有些因子还要考虑它的换手率和可能的交易费用,以及观察将市值、行业的因素影响剔除后的纯因子表现等等。经过这些流程选出比较好的因子,再进入下一个流程,即对单因子做增强模型,观察单因子增强策略的收益风险特征是否能够满足要求。上述都属于因子检验流程。经过这个流程可以把因子分为不同的等级,在我们的数据库中就有一个等级标签,最终我会接合自己的投资习惯,从不同的因子大类里面选取一些等级高的单因子做混合因子,再针对A500指数做混合因子增强策略,期待超额收益更加平稳和持续。   

 吴娟娟:刚才您介绍了评估因子的方法,听起来非常复杂,可不可以简单理解,好的因子就是对未来股价走势有较强预见性的因子。

田大伟:可以这样理解。如果说因子值和未来涨跌幅持续正相关或者负相关就是一个好因子,那就可以简单把这个相关性视为一个常数,也就是说因子值本身就是通过这个常数进行量纲转换后的股票未来涨跌幅,所以可以简单把因子值理解为股票组合的预期收益。量化在强调各股预期收益准确性的同时,更强调股票之间预期收益率排序的准确性。

我们希望整个过程是严谨的,也希望这个规律背后具有一定的逻辑性。比如说低估值,高成长,这些因子具有一定逻辑性,同时我们用数据做检验,看这个规律是否平稳,通过一层一层的检验,最终形成多因子混合。生成多因子增强策略之后,也不会立即把这个策略上实盘,我们会把历史回测业绩能够满足产品收益风险要求的策略放到生成环境中每天跟踪,经过较长时间的样本外跟踪,选取其中稳健的策略用于实盘。有这么一套流程来管控。

 吴娟娟:可能投资者朋友也看到很多基金的策略,使用非常多的因子,怎么甄别这种说法有没有道理,或者说因子太多有没有坏处呢?       

田大伟:这需要一个对因子好坏的定义,我不觉得因子数量多就好。比如说现在机器学习遗传规划方法挖的因子,一天甚至可以挖掘上万个因子,只是这些因子的相关度都很高。因子的好坏至少应该考量两个方面,一是因子值本身的检验结果是否好,第二就是这个因子也不能和其他因子的相关度很高。如果能够满足这两个条件,再去讨论因子数量就更加科学。在高准确度、低相关度的前提之下,因子的数量越多越好。

 吴娟娟:如果是完全低相关的,我相信它的数量也不可能无限制增强。

田大伟:是的,特别是在机器学习领域里,要找到收益水平高,同时相关度低的因子其实是比较难的,很多准确度高的机器学习因子彼此之间的相关度就是很高。

如何选到一只好的指增产品?

图片

 吴娟娟:接下来一个问题,作为指增产品的基金经理,您希望指增产品带给投资者什么样的体验呢?

田大伟:刚才我们聊到大家愿意去购买指增产品是希望超额收益持续稳定。我们也说量化的优势之一是守纪律,风险约束控制得比较紧。所以我们希望量化指增产品的实盘超额收益是持续稳定的。

 吴娟娟:能不能给大家介绍一些选择指增产品的简单原则?   

田大伟:好的。简单原则就是有超额且超额稳定。可以参考一个量化指标,在任意时点买入指增产品,持有一年,超额收益为正的概率。这个指标比较好地兼顾了超额收益大小、稳定性和持有时长。另外我还建议投资者观察量化团队和公司的投资风格,这其实也是蛮重要的。因为像我们是一个偏保守型的团队,指增产品合同层面上并没有要求严格做到行业中性或者风格中性,但是我们通常会把这些要求放在非常重要的位置上,如果给自己的限制比较多,那么超额收益自然就会相对低一点,但稳定性可能也会高一点,这也是评判不同产品的时候应该关注的一点。

 吴娟娟:对于普通的投资者来说,通过持有一年的收益情况来评判,也是一个比较好的时间维度,如果要求投资者持有三年才有超额收益的话,可能是有点严格。

田大伟:确实是这样的,因为流动性也是有成本的。从资金配置角度来看,很多投资者也许会在不同产品之间轮动持有,但是权益资产的总仓位还是比较稳定的。还是希望通过超额收益的稳定性来使投资者持有的时间更长。整个股市确实有周期波动,如果看全收益指数涨跌,其实与宏观经济增速的相关度是比较高的,所以长期持仓的收益还是不错的。    

 吴娟娟:刚才您讲到了团队的情况,能不能多讲一点,比如说投资者可能看了这个历史上跑得是不错的,但是我怎么知道这个基金经理或者公司有足够的实力在未来可以维持这种业绩表现呢?

田大伟:这确实是比较难以保证的,有下面三个维度供参考。首先是业绩归因。通常我们会把超额收益的来源分解为费用、行业贡献和个股贡献等。费用对于超额收益肯定是负贡献,希望行业即没有正贡献也没有负贡献,希望行业是中性的,我们希望收益都来源于个股。如果两个产品从2018年至今有相同的超额收益,一个产品的收益只来源于个股,且个股收益的累加图是斜率稳定向上的,另一个产品的收益同时来源于行业和个股,且不同的时段收益是有波动的。那么我们显然更倾向于前者,因为这种来源于个股的稳定收益,在未来它能够重现的概率会更高。   

第二个维度是不同产品之间收益风险特征的一致性。比如团队管理的不同指数的增强产品,超额收益的大小也许是不同的,但是在时间序列上的趋势和稳定性应该是比较接近的,因为不同指数的增强策略都是共用一套方法论和交易系统,很多风险因子和阿尔法因子也是共用的,所以它的收益风险特征应该具有一致性。

第三点就是看公司的投资和管理风格。产品的风险收益特征也是公司整体投研文化的具体体现。公司的合规、风控部、信息技术部和交易部等部门协同配合,都是产品投资业绩稳定性的保障。

 吴娟娟:也就是说我们希望这个超额收益,是由公司也好团队也好,它的投资能力产生的,因为这才是未来可重复的,如果说超额收益来自于对某一行业的过多暴露,可能市场风格变了,就不一定奏效了。

田大伟:是的,术业有专攻,我们不对行业择时,有些团队可能比较善于做这个。这不代表我们不做行业的超配或低配,只是超配和低配是由于行业成份股的阿尔法因子大小决定的。具体来说,模型在最大化阿尔法因子得分的同时保持行业中性,这个中性并不是相等的概念,是偏离度的概念。比如说这个行业的偏离不能超过0.005%,在统计学意义上就是行业中性。自然可以把这个行业约束从0.005%扩大到1%,有些行业就会有超配,有些行业就会有低配。这种超配或者低配是因为这个行业的成份股在阿尔法因子上的得分比较高或比较低造成的,而不是基于对行业的择时。    

中证A500指数有哪些优势?

图片

 吴娟娟:接下来就要谈到A股市场最热门的指数,中证A500指数,田博能不能帮大家介绍一下这个指数,这个指数有什么特点?

田大伟:目前全部ETF产品规模约有三万亿,分布是不均匀的,沪深300ETF约有一万亿,在A500指数出现之前的规模第二大ETF产品约有两千亿,规模差距还是明显的。如果市场上有一个指数的相关产品规模能够向沪深300指数看齐,目前看可能就是A500指数。A500指数有一些特点,ESG负面剔除,互联互通等,还有一个重要的特征是行业的覆盖度更高,A500指数的三级行业覆盖度明显高于沪深300指数,如果说在整个市场里找一个指数作为市场相对完整的代表,那么可能是A500指数,因此A500指数会被大家所关注。

 吴娟娟:我来问一个可能很多人想知道的问题,因为我们常常讲到指数和经济的相关性,能说中证A500这个指数是所有指数中比较能够代表中国经济的指数吗?  

田大伟:我觉得是可以的,这也是没有最好只有更好的概念。因为A500指数涵盖的大中市值的新质生产力公司或者细分行业的龙头公司相对更多。另外有一点值得关注,通常我们说的指数都是价格指数,价格指数不包括现金分红收益。假设你有一万元股票,在除权除息日,简单来看就变成9500元加上500元现金分红,现金是不算在价格指数中的,所以价格指数是被低估的指数。与价格指数相对应的是全收益指数,全收益指数会包括分红现金,目前沪深300全收益指数的每年收益会比沪深300价格指数多约2%以上。而沪深300全收益指数与经济增速在长期是一个正向关系。所以说用宽基指数作为经济的晴雨表,是有一定道理的。加上前面对A500指数特性的分析,A500指数也可能是经济的一个更具代表性的指数。    

 娟娟:我们知道田博也有一只中证A500指增产品正在发行,能不能谈一谈对于这个指增产品,你准备怎么增强?

田大伟:分两步进行增强,第一步是控住风险,第二步才是谋求增强收益。我们也是追求超额收益的持续稳定性。在产品运作初期我们可能会更加强调控制住风险,例如持仓基本上都来自指数成分股,行业占比和市值等风格也尽量与指数保持一致。之后再通过数据库里储备的多元阿尔法因子,尽量把收益来源分散化,使它更加稳定,以期获取持续的超额收益。

 吴娟娟:控制风险主要通过控制偏离度来实现。

田大伟:是的。大家可能自然会想在更宽广的领域里去捕鱼,我们还是尽量在成分股里面去做组合,这样超额收益大幅为负的风险自然会被减少,这是很重要的风险防线。行业和风格也尽量不偏离,通过多元阿尔法因子相对成份股的偏离来获取超额收益。  

 吴娟娟:一般来说,指增基金在基金合同中对偏离度是有约定的,您刚才说的意思是说在初期可能会比约定更严苛一些是吗?

田大伟:会更严格。合同层面有两个约定,一是非现金基金资产的80%来自于指数的成分股和备选股,二是年化跟踪误差不超过7.75%。在产品的运作初期我们会更加严格要求,持仓基本都来自成份股,行业和风格尽量中性,跟踪误差也会控制的更严格。

其实我们不追求过高的收益,过高的收益代表着过高的风险,我们还是把超额收益的稳定性放在核心位置。当然这是以超额收益高于一个阀值为前提,在超额收益能够满足要求的情况之下,它的稳定性就非常重要了,这样的话持有人才能够长期持有。

 吴娟娟:很多人认为A500也是一只比较适合做指增的指数,您怎么看?

田大伟:A500确实是一个比较适合用量化方法做增强的指数。首先它是个宽基指数,成分股数量比较多,其次行业、个股的权重也比较均衡,超额收益就比较容易做出来。量化方法是通过优化算法,控住约束条件后谋求超额收益。当选择范围比较大的时候,不容易被一些特殊的因素所干扰,约束条件更容易被控住,那么超额收益就会更加稳定。

 吴娟娟:现在量化投资非常热,能不能为大家介绍一下现在量化投资有哪些最新的趋势,您刚才也提到了机器学习,这些方法是怎么用到量化投资里去的?

田大伟:机器学习的基本模型,比如说神经网络,在二十年前就有了,只是那时候数据不够丰富,计算机的算力不够高,用神经网络模型做出来的效果不够好,近几年预测效果改善了,就被大家所关注了。目前我们研发时间最多的就是在机器学习这个领域里去挖因子,它的基本原理其实也是比较直观的。我可以举个例子。可以用股票的高开低收等数据去预测未来十天的股票涨跌幅,X就是高开低收数据,Y是股票涨跌幅,用2015年到2020年数据来寻找X与Y之间的规律,这种规律核心点是X之间的非线组合。首先X之间可以任意组合,生成一系列特征因子,特征因子之间又彼此组合,通过激活函数,一层一层传递下去预测Y值。显然在第一轮参数下,预测的Y值是不准确。调整参数使偏差越来越小,最终把参数固定下来。接下来用2021-2023年的数据去验证。如果训练数据集得到的参数在验证数据集中对Y的预测准确度也很好,模型就可以用于实盘。目前随着数据越来越多,算力越来越高,模型预测的准确度和稳定性也越来越好。现在机器学习模型研发的因子已经用于实盘了。

 吴娟娟:听起来是非常复杂,不知道我的理解正确不正确,是不是类似于我想要组装一个玩具小汽车,我希望它达到一个既定的速度,每次组装之后让它先跑,按照它与我的目标距离来松一下或者紧一下螺丝,最后如果它达到了我的目标,那就相当于我把这些参数都调好了。这是我在既定的训练轨道上实现的,那我再把它拿到训练轨道之外,看它能不能实现我想要的效果,如果它也比较好地实现了,就说明我这个模型训练得比较好了,可以这样来理解吗?

田大伟:可以这样理解。机器学习模型研发的因子也是个单因子,它跟PB因子、ROE因子类似,我们会做相关性和分组等检验,会做单因子增强模型,给它一个因子等级标签,等级高的因子再做多因子增强模型,多因子模型储备十几个,经过一段时间的样本外跟踪,选择其中几个上实盘,就是这样一套流程,通过这套流程把量化方法的核心价值沉淀下来。    

 吴娟娟:可能有的朋友会说刚才你说的好像都是计算机的事,不太需要金融的知识,对公司的理解、对基本面的理解,这部分的知识是在什么地方会加入进去吗,还是我们就不需要这些基本面知识了?

 田大伟:需要的。只是说基本面因子,比如说估值、成长等因子,可能在之前就研发好了,因子库里面基本面因子很多年前就差不多固定下来了,现在花大量时间研发高频量价和机器学习因子,上实盘时会把来源于不同大类的因子做混合,使得收益来源比较分散和均匀。

大家强调因子的逻辑性,不仅仅在于盈利等和股价之间基本面逻辑,也在于这个因子的研发过程是否科学。同时我也想补充一点,机器学习模型反过来也会提升基本面因子的质量。比如说PE这个估值因子,这个E逻辑上来讲是未来的盈利,未来的盈利可以分解到上市公司未来的产品销量、市场占有率、价格、毛利率等这些数据,逻辑数据细分下去预测的准确度也会降低,机器学习模型可以帮助提高这些细分数据预测的准确度。

 吴娟娟:最后请田博介绍一下,兴证全球基金在量化投资方面未来有哪些布局? 

田大伟:量化投资是一个系统工程,不仅仅需要策略研发团队,也需要合规风控团队、需要信息技术部和交易部一起来制定制度,开发交易系统等,它是一个大团队作战的概念,所以说一个量化团队产品业绩的好坏,取决于整个公司的战略布局。另外,量化产品具有类工具属性。我们的系统每天跟踪超过500个阿尔法因子,跟踪超过三十个指数,阿尔法因子和指数之间可以组合生成不同的指数增强策略,这些都是系统自动完成的。我们逐日观察这些策略收益的稳定性,成熟一个,发行一个,所以量化产品数量可能会比较多,产品管理的边际成本也会随之降低。   

 吴娟娟:对于大家现在特别关注的大语言模型,你觉得它有可能会被用于因子挖掘吗?

田大伟:有可能。大语言模型是对文本做语义分析。我们也有来自文本数据的因子,起源于团队中一位博士生的博士论文,他在股吧里面去收集大家的评论,评论是文字,把这些文字拆成词组,比如说涨、跌、逃、赢等,给这些词组打一个情绪标签,量化成选股因子。类似的文本数据在业内已在使用,很多财务数据、量价数据的收益来源已被大量研究,未来文本数据,特别是行业研究员研究报告文本数据的研究可能会越来越深入。

将兴证全球基金设为“星标”⭐

不错过精彩内容!

图片

优选好文

图片

图片
风险提示:
《拥抱指数化浪潮——指数增强基金全景报告》内容来自海通证券研究所基金评价与研究中心(章节4除外)。兴证全球中证A500指数增强型基金是股票型基金,其预期风险与收益高于债券型基金、货币市场基金、混合型基金。基金管理人对其评级为R3。本基金业绩基准为:中证A500指数收益率×95%+银行活期存款利率(税后)×5%。拟任基金经理田大伟:2010年4月至2018年3月,就职于光大保德信基金管理有限公司,历任金融工程师、首席策略分析师、投资经理、基金经理、绝对收益投资部总监。2018年4月至2023年9月,就职于华鑫证券资产管理总部,历任副总经理、投资总监、资管量化投资部总经理、投资经理。2023年9月至今,就职于兴证全球基金管理有限公司,现任专户投资部总监助理兼投资经理、兴证全球红利量化选股股票型基金基金经理。
兴证全球基金承诺以诚实信用、勤勉尽责的原则管理和运用基金财产,但不保证基金一定盈利,也不保证最低收益,投资人应当认真阅读基金合同、招募说明书等基金法律文件,了解基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应,自主判断基金的投资价值,自主做出投资决策,自行承担投资风险。我国基金运作时间较短,不能反映股市发展的所有阶段。基金管理人管理的其他基金的业绩或基金经理曾管理的其他基金的业绩不构成基金业绩表现的保证。基金投资须谨慎,请审慎选择。观点仅代表个人,不代表公司立场,仅供参考,不作为投资建议,观点具有时效性。