注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

QuantsGeek量化极客

量化投资日记

 
 
 

日志

 
 

量化投资在中国市场的应用之五(量化行业配置与实证分析)  

2010-09-22 04:25:22|  分类: 量化投资论文集 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

谈到量化行业配置,国外经典行业配置理论是美林周期时钟,国内主流的卖方市场也相应针对这个主题发表过较多的报告。国泰君安对美林时钟进行了扩展,将美林时钟和中国行业分类匹配,提出自己的四个周期行业轮动理论,本质上只是借用美林时钟的思维框架提出自己的行业周期轮动,结论和美林时钟有较多矛盾之处。联合证券,长江证券,中金公司以及国信证券都有其独到的行业配置理论,依次从行业弹性,个股与行业指数的相关系,周期行业与非周期行业区别,以及行业关联网络等角度报道,主要原理都在于追踪市场。在本文中,我将建议性提出“内幕信息”探测器,同时将遗传算法,优化求解,多元回归,主因素分析应用于量化行业配置中,尝试构建适合于买方机构的月度量化行业配置框架和流程。

第一部分:理论框架

(一)     再论美林时钟与行业配置

国内比较流行的华安行业轮动基金,东吴行业轮动基金等都基于行业周期轮动。首先让我们将传统的美林周期时钟和中国目前的金融市场相结合进行探讨。美林时钟是一种以直观的方式将大类资产配置和行业配置与经济周期轮动相结合的研究办法。在现实经济和资本市场,有一个明显的行业轮换和投资时钟的事实。如图一所示,我们可以比较清晰地将经济周期分成四个阶段,分别为经济衰退,经济复苏,经济过热和经济滞胀,周而复始运行。

量化投资在中国市场的应用之五(量化行业配置与实证分析) - 琦少 - 撒拉弗琦少

 

图一

在谈论四个阶段之前,我想先引入GARP选股(详见量化选股在中国市场应用之二揭开量化选股面纱),同时在美林时钟理论中,我将GARP选股和美林时钟四个阶段将结合进行探讨行业周期轮动效应。常见的行业内选股我们通常喜欢使用GARP(Growth rate at reasonable price)模型以及模型衍生, 在国内市场,长江证券,中信证券,联合证券都对这一模型进行了延伸论述。华泰联合证券在这个方面最具权威,先后发表过20篇行业内选股的文章。以上三家券商报道GARP的时候,通常将选股的条件分为低估值和高增长两大类进行筛选,希望找到这两类属性同时具备的股票。事实上,我建议可以将美林时钟和GARP相结合,在美林时钟经济复苏和衰退阶段,以高增长作为主导的选股方法,在经济过热和滞涨阶段,以低估值作为筛选标准。

 

经济衰退阶段:

在这一阶段,股票疲软,大宗商品暴跌,整个市场处于降息的通道,收益率曲线在剧烈下降,故而大类资产方面,债券是唯一最佳选择。行业配置层面上,防守性增长型股票如金融行业通常被投资经青睐。

 

经济复苏阶段:

经济加速发展,通常在这一阶段,股票市场繁荣,现金贬值,我们的首选大类资产是股票,其次是债券市场。通常在这一阶段,周期性成长股以及行业生命周期前导期的小市值股票大多被建议,一般而言,GARP模型选股中间,成长性成为此阶段较为成功的选股方法。我们有理由相信:中小市值的高科技股票,新能源新材料将成为这阶段的热门,事实上中国2010下半年就属于这个阶段。

 

经济过热阶段(景气):

在此阶段,物价飞涨,通现金贬值,政府通常进行加息或提高存款准备金,这样对利率较为敏感的债券将面临贬值,市场上大众商品成为主流的投资对象,与大众商品相关的股票成为了较好的选择。同时这一阶段,处于对通货膨胀的担忧,投资者对保值需求相当强烈,有色金属,矿业,房地产以及传统机械等周期性价值股将会成为市场投资的热点。这个阶段属于中游行业和大市值权重股的天堂,从GARP选股角度而言,大市值股票由于处于产品生命周期的成熟期,其高增长的黄金年代已然不复存在,市场的关注热点将会落到估值等相关指标上。

 

经济滞涨阶段:

这一阶段,通常面临经济危机,股票市场在经历上一阶段的泡沫经济后出现暴跌,现金开始成为最佳选择,没有行业能够获得绝对收益。相对而言,需求弹性较小的公用事业,医药将在这一阶段表现最好。这一阶段有别于经济过热时对金属价格的敏感性,对石油价格敏感的能源股也将在此阶段表现较好。在这一阶段中,GARP选股更加侧重于估值类指标。2010年上半年就比较接近于此阶段,经历过2009年大反弹之后,市场变得更加理性,公用事业,医药板块成为市场投资热点,低估值方式也成为量化选股的主要参考标准。

 

以中国2010年股票市场的9个月的演变过程,先后经历的是经济复苏期,经济过热,经济滞涨期三个阶段,在此三阶段中间,中小市值高科技板块,债券市场,有色金属,医药板块先后成为市场投资热点,按此逻辑推断,在未来3个月甚至明年上半年期间,市场如果出现反转,应该由金融行业反弹开始,接下来依旧再次上演中小市值高科技板块以及创新概念板块复苏的格局。

 

基本上,美林时钟理论的应用程序逻辑是首先把握了目前市场的经济运行周期,之后在对宏观周期识别的基础上,进行不同周期的行业配置。这种方法最大的缺陷是很难识别宏观周期,同时中国市场处于一个告诉黄金发展期,上述的行业周期四阶段通常在很短的时间内完成,而且演变顺序也将会被打乱。

 

(一)    “内幕信息”探测器

在中国这个弱有效市场,基于人脉网络的宏观政策解读的作用将远远大于美林时钟的作用,而这种基于宏观政策的解读将会直接决定投资机构大类配置和行业配置及时的调整。在既定的大类配置和行业配置成功的前提下,个股选择的作用显得相当的灰色。让我们看一组历史上大类配置与行业配置的数据:布林森,辛格和比鲍尔(1997)对美国82家大型多元的养老基金从1987年到1997年十年间的业绩进行研究。结果表明:战略资产配置(也被称为大类资产配置)和行业配置决定投资组合回报91.4%。同样博特森和卡普兰(2000年)在耶鲁大学也做过美国共同基金和养老基金的投资回报类似研究。结果表明:资产和行业配置贡献在共同基金和养老基金的总回报的贡献依次是87.6%和90.7%。以上所有均展示资产和行业配置在投资组合的总回报中的重要性。

 

这组数据的结果暗示具有稳定业绩的基金收益更多的来源于配置,其中包括大类配置与行业配置,这些配置的背后隐含的是宏观政策的解读。在中国,大部分业绩较为优秀的基金具备较强的人脉网络,同时有别于发达国家,中国也疏于对“Inside Information”的监管,优秀的基金公司通常可以通过“地下”渠道获得来自政府的所谓的“Inside Information”同时结合自身对宏观经济政策的判断,较好地对未来的行业配置提前布局。

 

如果我们可以通过定期高频数据分析,发现市场行业资金流向,同时通过一些量化手段,定期分析出优秀的基金公司在近期的行业配置,将两方面结果相结合,这样就可以较为准确地进行下一阶段量化行业配置。在这里我想指出,在实际应用中,基于高频数据的资金流向有时会有别于市场主流的资金流向结果,特别是在中国市场,容易出现尾盘拉升的前提下,故而资金流向的量化计算技术也将成为决定量化行业配置成功的关键因素。

 

其实上述量化行业配置的主要原理是跟踪市场与遵循强者“following the winner”我们但这里面最大的问题是我们假设这些基金都采用买入持有的战略,调仓不频繁,同时不会刻意隐瞒自身的持仓情况。在中国,通常基金公司的大类配置与行业配置资料会按季度公布的,由于公布的频次较少,这种问题无法回避。但是如果转而研究近期月与季度基金净值与行业指数的关系,以日数据作为研究对象或有所发现。具体而言,一个成功的基金,可以掩盖其持仓数据,但通过对净值与行业指数定期做出基于日数据的多元回归分析,我们不难发现其逆市上扬背后的行业配置变化。

 

这种方法最大的问题是,我们忽视了多重共线性的影响。我们可以使用主成分分析和逐步多元回归来克服上述因素的影响。回归的第二个问题是,我们假定基金净值之间和行业指数之间有线性关系,同时基金公司的投资风格是买入持有风格且不能出现卖空现象。但这个假设在中国市场是很不容易做到,因此上述结论与实际情况通常会有所偏差。第二个问题的解决方式是通过遗传算法和神经网络解决。

 

理论上,我们可以使用遗传算法和神经网络通过行业指数对基金净值进行复制,而不采用线性回归的方法。正如理论界学者描述:“神经网络算法本身不用假设变量间的线性关系”(鲁梅哈特,麦克莱兰1986年与瓦瑟曼1989年)。“他们在统计变量间非线性关系上具有较好的效果”(怀特和斯廷奇康姆1992年)。遗传算法和神经网络的引用克服了诸如线性回归模型的限制。

 

侯赛因,马赫迪(2007)指出:“在许多现实世界的问题,例如金融领域,人工神经网络(ANN)模型在数据分析任务上超越了统计多元回归技术。特别是在底层模型非线性的前提下,神经网络有着更好预测效果。其在缺乏背景知识和假设前提下,具有对输入与输出值有良好的学习能力”。

 

遗传算法最大的缺陷在于,应用神经网络之前,要确定太多初始化参数,而这些参数默认值设置的不同将直接会导致最终计算结果的差异。在这里,我另外再建议一种合成基金净值的方法。这种方法得益于中金公司量化投资一位研究人员的一点启发以及我之前研发的指数基金合成方法(详见量化投资在中国应用系列之四:指数基金构建与实证)。具体而言,我们可以将行业指数与基金净值以相关系数和追踪误差作为优化条件,尽可能增加相关系数或者减少跟踪误差,以此复制基金的净值。

 

实际应用中,如果我们能够结合基于高频数据的行业资金流向,主因素分析,多元回归,优化算法和遗传算法计算结果,较为有效地完成我们的量化行业配置。在实际应用中,我们可以先通过主因素分析将行业指数进行归类,之后再通过多元回归模型和遗传算法来寻找基金行业配置的重大变化。同时结合基于高频数据的行业资金流向,找出主流优秀基金具有一致性结果的行业配置以及配置变化情况。

 

第二部分:实证分析

在实证部分,申银万国一级行业分类23个行业指数与2010年上半年表现较好的华商盛世成长基金,东吴价值基金,信诚盛世蓝筹成长将会被作为研究对象。以上方式只是为了实证分析的简便性,实际中,建议考察业绩表现较好的前10大基金的行业配置情况,以此作为判断标准(详见我每期博客上公布的量化行业配置http://youngkingliqi.blog.163.com/ ,结果是基于10大主流基金的遗传复制以及近期的资金流向)。由于涉及的行业过多(23个行业),通常情况下,在多变量的数据组中,很多变量会出现一种共同移动的趋势,而我们可以做的是用一个或几个新变量来替代原来共同移动的一组变量,实证中我将使用主成分分析的方法推行这种降维方法。

 

(一)     主成分分析

关于多变量回归分析,我们首先要确保23个行业指数是相互独立的变量。首先我用抽取法对23个行业指数从201012日到2010331日做主成分分析检验。见附录1,我们可以看到总方差结果看出,我们发现,前两大因素已经解释总方差的83.37%。因此,在附录2我抽取了前两大因素作为主因素矩阵。

 

根据中国A股股票市场的规定:我们不能卖空股票,因此和大量负系数组成部分是毫无意义的,因此在附录2,我只使用第一个因素作为降维因素。通过检查主因素矩阵结果,我们发现,所有23个行业的系数全部是有正值并且是显著有效。从数值上看,它们基本上都相当接近0.8。基于这个结果,我们很难剔除任何一个行业。

 

我同时也针对申万二级行业分类(79类行业指数)做了相同的主成分分析测试,结果是相当类似的。我们可以发现,前4个组成部分的解释了总方差的87.0%。但从主成分矩阵看,79个行业的所有系数都是显著的并且接近0.8,所以我们也不能降低二级分类里任何维度。

 

(二)     多变量回归分析

让我们运行前三名基金的净值和23行业指数的多变量回归模型,样本期间为201012日至2010331日。附录34分别显示基金(华商基金)和行业指数的回归结果。首先从附录3表明,决定系数(R平方)非常高(91.6%),这意味着多变量回归模型可以解释91.6%的方差,回归非常可靠。我们还可以找到其他的数字也很大,如R95.7%)和调整后R平方(88.6%)。附录4描述了多变量回归系数,它表明,华商基金主要与医药生物,建筑建材,电子元器件这三个行业相关。对于机械设备和商业贸易行业,尽管其中系数较高,但P-Value都大于0.05。这意味着在95%置信区间,这两个行业指数都是不显著。以下公式表明华商盛世成长与行业配置的关系:

 

l  华商基金= 0.512*建筑建材+ 0.287*医药生物 + 0.220 *电子元器件+ ...

 

通过检查其他两个基金(东吴价值增长及信诚盛世蓝筹)的回归模型结果。我们可以发现从模型摘要(在附录56)即确定为东吴与信诚模型决定系数为94%和96.3%。作为一个多变量回归模型,这样的结果是相当可靠。附录78描绘为东吴与信诚两家基金的回归系数,它表明医药生物,机械设备和商业贸易是东吴基金重点配置的对象。与此同时,信诚基金与医药生物,建筑建材,机械设备和商业贸易有较强的相关性。这种关系可以由由下面的公式给出:

l  东吴价值基金= 0.310 *机械设备+301*医学生物学+0.259*商务及贸易+ ...

l  信诚基金= 0.352*建筑建材+ 0.349*机械设备+0.313*商贸贸易 + 0.245*医学生物+ ...

 

(三)     优化算法与神经网络

多元回归算法主要弱点是,在中国A股股市,股票是不能卖空的,因此如果一些行业指标的系数是负,同时也被证明是显著的,这样的回归模型结果是会受到质疑的。

 

在前文部分,我提到对于量化行业配置,我们也可以使用不基于线性关系的遗传算法和神经网络的。但在实践中,我们发现有太多的参数是预先设置的,如果这些参数进行变化,在同一时间遗传算法的结果将会是完全不同的。所以在下面的实证部分,我将使用优化求解(基于相关系数或跟踪误差)与遗传算法相结合的行业配置方法。

 

本测试中使用23个行业指数与基金的净值的遗传算法模拟以及优化求解,以期实现减少了23个行业之间的组合和基金的净值的跟踪误差最小化。

 

附录7描绘这三只基金权重分配的结果。很明显,这三个基金的经过遗传算法和优化求解之后的跟踪误差都相当小接近于零。从附录7,我们发现华商基金主要是与建材行业,生物医学有关;东吴基金与医学生物,餐饮旅游相关;信诚蓝筹主要取决于机械设备,生物医药和建筑材料。这种关系可以说用由下面的公式表示:

 

l  华商基金= 0.38 * 建筑材料 + 0.25 * 医学生物学 +  ...

l  东吴价值基金= 0.34* 医学生物学+ 0.27 * 餐饮 + ...

l  信诚基金= 0.2 *机械设备+ 0.24*生物医学+0.19*建筑建材+ ...

 

接下来的步骤比较这2种方法行业分配的一致性。从表一,我们可以发现,这两个模型的结果是惊人的相似,证明双方的有效性。在表一中间,我用黄色背景强调这两个模型之间的重合的重配行业业。从上述两个模型的结果,我们从201041日起开始,应该重点配置的行业是建筑建材,医疗生物和机械设备。其中样本期间为201012日从2010331日。

 

多元回归

华商成长基金

东吴价值

信诚盛世蓝筹

0.512

建筑建材

0.31

机械设备

0.352

建筑材料

0.287

医药生物

0.301

医药生物

0.349

机械设备

0.22

电子元器件

0.259

商业贸易

0.313

商业贸易

 

 

 

 

0.245

医药生物

遗传算法和优化求解

华商成长基金

东吴价值

信诚盛世蓝筹

0.38

建筑建材

0.34

医药生物

0.29

机械设备

0.25

医药生物

0.27

食品饮料

0.24

医药生物

0.09

机械设备

0.07

电子元器件

0.19

建筑建材

0.08

电子元器件

 

 

 

 

表一

另一种解释是美林证券的行业周期。在2010年第一季度,中国正在经历的衰退阶段(滞胀)由于对房地产和金融业的宏观调控。这三只基金均持有医疗生物产业(防守型行业),这个是基于滞涨期的判断。同时,滞涨之前的经济过热期保留的机械设备也是其重点配置。所有这些都与美林证券的行业周期时钟相一致。

量化投资在中国市场的应用之五(量化行业配置与实证分析) - 琦少 - 撒拉弗琦少

 

图二

 

最后,我用这3个行业指数组成一个新指数(即所谓的合成图图二)。合成指数的回报计算只需使用这三个行业的平均日收益率,并将其与沪深300收益率序列同时展现。在图中,我们可以看到合成指数与沪深300指数累计收益率序列综合比较。

 

在样本内区间范围内,沪深300和合成指数不存在显著差异。然而,在样本外期间,对比结果表明该合成指数表现远远超过沪深300指数。从43日至430日,该合成指数达到最高点上涨3.2%,同期沪深300上涨0.1%。从51日至71日,两个指数均处于下跌状态,但合成指数下跌速度明显低于沪深300全收益指数。表二是两种指数的收益率与风险对比表:

 

沪深300指数与合成指数对比分析

 

沪深300指数

合成指数

样本内回报

-0.17%

0.57%

样本外回报

-7.50%

-5.05%

样本外风险

0.63%

0.65%

样本外夏普比率

-11.90

-7.77

表二

 

表二列出沪深300指数和合成指数的统计汇总。结果表明:虽然合成指数风险相当接近沪深300,合成指数累积回报远远战胜沪深300指数(-5.05%的较大比-7.5%)。在同一时间,我们也可以看到合成指数的夏普比率远远高于沪深300指数(即较大的比-11.90 -7.77)。

 

总之,上述分析表明,量化行业配置在中国A股股市相当有效。

 

 太平资产管理有限公司 投资管理部李琦

2010年9月22日凌晨

  评论这张
 
阅读(635)| 评论(2)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017