注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

QuantsGeek量化极客

量化投资日记

 
 
 

日志

 
 

量化投资的中国化研究  

2013-08-28 23:51:49|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

量化投资的中国化研究

-Skywalker

——如果市场完全有效,技术和基本分析将白费,这意味着定量投资研究是没有意义的。在实践中,完全有效的市场不会存在,通常可以通过异常现象获取超额收益。

 

计算机已经成为投资组合经理和证券分析师的必备工具。复杂的交易策略,如程序化交易和投资组合管理,没有计算机和通信基础平台的支持,就不可能实现。正如商业周刊报道,在很大的范围内在技术驱动下,金融业正在发生结构性的变化。 - KYTam,运筹学学会杂志,Sep.199
 

在过去的一个世纪,关于量化的投资方式,大量经济学家做出了不懈的努力。最初量化投资的讨论可以追溯到1900年,由学者Bachelor提出。不幸的是,他否认了定量投资作用。他认为商品市场的价格变动应该是相互独立的,因此定量分析是没用的,但当时没有人能证明这个理论的真伪。直到1950年,有效市场假说才开始在欧洲和北美股市进行了实证分析。肯德尔(1953),法玛(1965),布里雷,德莱顿,坎宁安和穆尔(1962)分别在英国和美国进行市场的典型试验,发现“英国市场遵循随机游走模型,而美国市场是无效的市场”。

 
如果市场是完全有效的,传统的技术和基本分析将白费,这意味着定量投资研究是没有意义的。在实践中,完全有效的市场不会存在,我们通常可以通过“Anomalies(异常现象)”获取超额收益,而这些“异常现象”或者来源于技术分析或者来源于基本面分析。拉蒙劳伦斯(1997)评论说:“我认为有效市场假说在理论上有一定的好处,但在现实世界,这是痛苦的,因为存在一个明显不公平的竞争。一些市场参与者有更多的信息工具洞悉这种 “异常现象”从而战胜市场,基本上股市价格不单纯是随机行走”。业界中大量的研究人员,专业人士和普通投资者都在津津乐道地寻找这种“异常现象”获取高额回报。

 
在大量前人研究文献中,我们可以发现,投资具有这种“异常现象”的股票,如低P / E的股票,一月效应,小市值规模的企业,积极阿尔法策略都可以取得超越市场的回报(例如比S&P 500指数更好的表现)。Reinganum(1988)基于222家美国顶尖金融投资公司业绩发现“这些取得股票投资组合异常报酬的金融集团投资的股票都有一些共同特点和规则,而这些规则涉及通常可以用一些公开的市场参数测量,如市盈率,动量指标,市值规模,资金流向等”。在华尔街,大量顶尖的资产管理公司,基金公司和证券经纪公司通过分析自己的数据库或资讯供应商提供的数据来源不断从事这些异常现象的发掘,据不完全统计,美国证券市场日常的交易量有超过65%基于这种量化投资和算法交易。

 
在过去的几年里,越来越多的量化投资基金开始建立。据理柏的数据,2006年,81家量化投资基金加入共同基金的阵营。此外,量化投资基金的规模从2002年底的190亿美元增加到2006年的4000亿美元。Evergreen首席投资官比尔说:“在华尔街历史上,这是第一次量化投资成为主流方向,这是一个关键的转折点。”多家世界著名的投资管理或资产管理公司都开始发现量化基金,如我们熟悉的先锋,联邦,剑锋,美国世纪,联博,长荣,及嘉信等。最近他们都开始加入巴克莱全球投资集团和LSV资产管理两个世界上最大的量化基金管理公司阵营。
 

中国股市越来越多的量化投资的基金和指数基金公司如雨后春笋涌出,截至2010年7月,在中国A股市场,有9只量化基金(主动量化投资)和12只指数基金(被动量化投资)成立,金融工程技术正在成为投资业的一种时尚和技术革命。在我的接下来的论文中,首先我试图比较金融史上主流的数量选股方法,计算机化组合构建和管理方法,接下来我将介绍系统化的量化投资框架以及现代化的组合构建和管理办法(基于VS.Net, VBA, Matlab,SPSS)。在实证部分,我将使用中国金融市场最流行的数据供应商Wind的数据库以及我自己开发录制的高频交易数据库。

 
本专题共分为三部分。在第一部分(文献回顾与理论),我将系统化引进包括主动和被动投资的量化投资框架。在这一部分,我将批判性地介绍行业内比较流行的美林时钟行业配置模型,GARP行业内选股模型,Markowitz的有效边界应用,以及指数基金的构建方法。同时,我也提供我自己的方法并提供量化投资的框架和程序。

 
第二部分,我将重点聚焦于在金融市场上可以应用的实际统计和计量经济学方法,并将其应用于实证研究。具体包括了应用于行业配置的金融数据平稳性检验与转化方法;主成分分析,多元回归分析和优化求解,遗传算法; 应用于主动性组合构建的Markowitz的投资组合理论和有效前沿的组合构建方式,应用于指数基金构建的三种优化求解方法等的具体实施方式。
 

第三部分,我将应用前面讨论的数量化投资框架,实证多变量回归分析,优化求解,遗传算法在行业配置上的应用。同时,在这一部分,我还将分别提供积极量化投资方法(GARP选股,行业指数构建法,马克维茨有效边界新用,投资组合构建和管理)和被动投资方法(相关系数,追踪误差与Beta)在实际金融市场中的应用,并对不同的量化投资方法构建量化投资指数,长期跟踪量化投资指数与主流同类基金的业绩。


在介绍量化投资框架之前,让我们先比较一下两种主流股票选择方法:基本选股选股和技术面选股即狭义的量化投资,这两种量化选股的方法奠定了量化投资的里程碑,在本文结束将提出建议的量化投资框架流程和步骤。

 
基本面选股:

狭义的基本面选股主要包括财务指标选股而非基于股票的价和量,最早将基本面选股成文的是目前风靡一时的巴菲特的老师本杰明·格雷厄姆,他在1934年与大卫.陶德合著的《有价证券分析》奠定了财物指标选股的根基,被华尔街誉为股市圣经。

 
正如埃尔顿和格鲁伯(1991)提及到:“从大多优秀的投资公司实际运作看,投资组合经理大部分时间花在选股,只有偶尔才做市场择机。至于选股,他们的任务在于挑选一些承担相同风险但业绩显著优于同行业的股票。通常,不管投资经理在选择一家公司使用自上而下或自下而上的方法都非常重视公司的财务记录”。

 
基本面选股就是这种基于财务指标而并非股票价格和数量的选股方法。正如有效市场理论之父尤金·法玛指出:“我们从来都不缺乏证据,大量的基金公司的短期回报是基于投资一些具有良好财务指标的公司。这些指标包括,帐面价值价格比,现金流量价格比,收入价格比,股利价格比,收入增长率,杠杆比,债务/股本比率,净资产回报率和市值规模等,这些变量(因素)都被广泛的应用于华尔街多因子筛选模型中”。

 
基本分析基于公司的业绩和盈利能力深入研究,它代表了股票价格的内在价值。侯赛因,马赫迪与穆罕默德(2007)指出“基本分析相信通过研究公司的历史业绩以及最新公开发布的市场信息,市场状况,相关产业情况和其他宏观因素是可以取得超额收益的。这种方法适用于对公司的估值模型(如回归和相关性分析)”。

 
基本分析的优点是它提供了系统的方法,在信息被股价充分反映前预测到它的改变。此外,它也是一个长期的稳定和增长投资方式。但它的缺点是,有价值的信息的确可以确保股票未来价格的变化情况,但在实际中,这种股价的运动可能会推迟,直到市场以同样的方式解释这些信息。

 
通常,当我们谈论的基本面选股标准除了财务指标巴菲特描述,还包括上市公司的研究。通常意义上,这种选股方法是基于弱有效市场假说。在弱有效市场,基金经理在公共信息的基础上无法获取的异常报酬,但“内幕信息”可以成为成功的关键。目前,尤其是在亚洲文化下,财务信息和宏观数据披露机制遭到挑战和质疑,从而基于人脉关系的上市公司真实情况“双重检查”和宏观政策意图的解析成为了行业配置和个股选择克敌制胜的法宝。中国A股市场目前就处于这种弱有效市场阶段,这也是基本面调研方式较为盛行的主要原因。

 
技术面选股:


第二个是选股方法是基于股票的价格和交易量的关系, MACD指标,KDJ,RSI,动量指标,筛选指标,趋势线分析,周期理论,成交量指标,波浪分析都属于这种方式。

 
侯赛因,马赫迪与穆罕默德(2007)指出“技术分析理论基础是趋势变化,投资者对外界刺激的态度的变化充分反映在了价格的变化趋势中,这种分析方法就是利用历史价格来预测未来价格”。前文提到弱有效市场假说就与技术分析矛盾,尽管它依然被市场大约90%交易商使用。拉蒙劳伦斯(1997)这样评论技术分析,“虽然它被广泛使用,技术分析是从古至今都是最令人诟病的,这种方法非常主观的,不同的人可以以不同的方式解释图表,结论可以大相径庭”。客观上,技术指标可以提供短期或长期的信息,帮助确定趋势或市场周期或表示股票的价格趋势。但今天的交易市场瞬息万变,其固有的时间延迟使之无法成为理想投资分析工具。
 

技术分析背后有三个心理学的基本假设。正如约翰墨菲(1994)在《期货市场技术分析》一书中指出,“市场活动反映了所有的信息;价格永远遵循一种趋势移动;历史会重演,但不是简单地重复自己”。在实际投资中,道氏理论,K线理论,技术指标都是技术分析的实际应用。

 
通常情况下,不像基本面分析方法,机构投资者往往不屑于技术选股,主要观点是:在有效的市场,如果价格能够充分反映价格和交易量,这种定量分析必然无效的。但是这种思想的最大问题在于忽略了技术分析理论基础的后两点,价格移动有趋势,历史也会复杂的重演。拨开云雾,技术分析的本质是基于人类心理学,不管是中国的股市,香港的股市,美国的股市,人类内心活动皆是相同的,追涨杀跌,自我纠正,心理周期循环(自卑到自大,自大到恐惧,周而复始,或则我们可以理解为索罗斯的反身理论),我们看看通常的一些理论,K线理论,均线理论,技术指标,趋势线反映的是追涨杀跌,反转理论反映的是自我纠正,而波浪理论反映的就是人类心理周期的循环。

 
事后看来,特别是指数和行业的轮换和泡沫在各国都有着惊人的相似性,个股除外。技术分析似乎永远可以较为合理的解释指数变动方向和幅度而并非是个股。因为在许多新兴市场,交易商可能操纵个别股票,但他们无法操纵整个市场指数的趋势。到目前为止,琦和曼德拉(1999)正确预测了S&P 500指数超额收益率的上升或下降运动。 Kim和骏(1998)为新加坡股票指数改变方向进行预测。陈等人(2003)也尝试过试图对台湾证券交易所指数报酬率的方向和幅度进行预测并取得较好的实证结果。

 
在同一时间的价格和数量信息不完全对公众开放。大量价量指标如高频价量数据,资金流向,Topview或Superview数据都并非完全公开,而且随着金融工程和计算机技术的推行,基于这些数据进行数据挖掘的结果更是掌握在少数机构特权人手中,他们可以使用这些“不公平的信息”击败市场,甚至操纵它来获得超额收益。我们也可以视为另一种他们的“内幕消息”。
 

过去10年,IT技术在金融领域应用落后性也在一定程度上影响了技术分析的应用,尤其是当他们需要更多的高频数据和大量计算机程序开发时。通常即便优秀的投资经理有意愿写下自己的投资理念,但在缺乏系统化的量化投资软件和较强的编程能力的前提下,很难转化成计算机语言实现。

 
在强大的金融计算机技术支持下,量化投资的成功案例在各国屡见不鲜,阿舒尔,哈维,霍普金斯和郎(1999)为新兴市场墨西哥开发了一系列自下而上的量化投资整体框架和流程,从样本外数据实际表现看,实际取得了具有较高安全边际的骄人业绩。

 
很遗憾,到目前为止,因为“人类专业知识匮乏”,我们很难找到关于量化投资在实际金融投资市场应用的类似文献。有经验的投资组合经理和证券分析师通常很难总结量化投资的交易规则,其重要原因如下:
 

首先所有这些交易规则属于“诀窍”技能,这是和他们报酬直接挂钩。如果他们透露自己的专业知识,他们将有潜在可能失去他们的高额工资回报和社会声誉。
 

其次,正如我在技术分析的弱点中指出,由于大多数有经验的证券分析师都不是太精通计算机技术,通常很难用较为准确的计算机语言来阐明交易规则,从而给IT工程师正确编码造成极大难度。

 
最后,即使你能找到一些基于具体指标的交易规则,其随时间,交易市场和趋势阶段不同,稳定性和有效性都被极大的挑战。正如谭扬嘉(1991年9月)指出:“真实的交易规则不愿意被披露以及无法将其用准确的计算机语言表达造成量化投资系统开发实际障碍”。
 

总结下来,基本面分析学派假设投资者为90%为理想逻辑投资人,会基于详细考察之后进行投资,但技术分析假设投资者有90%是心理反应投资者,会基于市场环境的变化改变有明确的心理反应,并且这些反应终将体现在市场价格上。

 

前一篇涉及的量化选股其实是狭义的量化投资,广义的量化投资包括被动化量化投资和主动化量化投资两大类型,整体包括行业配置,个股选择,组合构建,组合调整的整个过程。量化选股只是量化投资框架中间的一部分。
 
如下左图所示,简易的被动化投资(指数构建)包括三大步骤。第一步是通过分层抽样,权重筛选或全样本三种方式进行选股;第二步是通过相关系数,跟踪误差以及贝塔等三种技术指数合成方法进行权重分配,最后一步是制定动态调整投资组合的策略。
 
下右图是主动化量化投资(积极投资)框架,其包括四大步骤。第一步是包括选股之前的量化行业配置(基于遗传算法,优化算法和资金流向);第二步是行业内选股策略(GARP模型)或行业内权重股选股策略。第三步骤是选股之后的个股权重配置,主要包括马克维茨的有效前沿股票组合构建方法以及基于优化算法的行业指数构建策略。最后一步依然是制定动态调整投资组合的策略。
 
 

 

 
在后续的文章中,我将详细展示主动投资中涉及的基于遗传工程的量化行业配置分配,行业内选股策略,行业指数合成技术,马克维茨的股票投资组合构建方法以及被动化投资(即指数基金构建)的样本选股方法,三种指数合成方法等各项技术在量化投资框架中具体应用。

 

被动投资理念的兴起起源于华尔街随机漫步理论,其理论认为“投资分析通常浪费时间,没有人能战胜市场”。被动投资理论的雏形最早由学者Bachelier(1900)在法国提出。之后,被动投资学派形成了一致观念:“事实上,基金经理普遍不能战胜市场,我们可以做的是廉价复制指数,而不是昂贵地购买共同基金和指数基金”。相反,Nigel(1989)也同时指出:“指数基金构建基本假设和短期技术分析原理一样,即指数基金筛选的股票间的统计关系将在长时间内保持不变,显然,随着时间的流逝,这一假设将变得不那么现实”。
 
虽然指数基金公司的数目近年不断上升,我们可以找到指数基金文献数量却寥寥无几。在过往的30年的文献中,我们可以发现五个曾经做过指数基金研究的学者。他们分别是 Rudd(1980)涉及在美国的指数基金;Andrews(1986)检验了英国的指数基金的有效性;NIGEL(1989)研究日本股票的市场数据,并提供了基于跟踪误差最小化的四种不同算法合成指数基金,同期在1990年他也提出过英国股票指数基金复制解决方案;雄田端和武田英二(1995)开发了一种有效的算法来为纽约证券交易所股票合成指数基金,最大限度地减少了跟踪误差。下面让我们来具体讨论了被动投资方法和原理。
 
关于定量的被动投资,我们需要复制的指数。通常我们有两个步骤来完成投资组合建构。首先,我们需要选择的股票,其次我们需要对选择的股票进行权重分配。现在让我解释一下整个过程如下:
 
合成指数基金第一步在于选股,我们将股票权重和行业因素作为两大考虑因素。总体来说,我们有三种方法来选择股票,他们分别是全样本复制,分层抽样和权重选股。
 
  • 全样本复制是抽取构成基准指数的所有股票
  • 权重抽样意味着抽样权重较高的股票,以配合市场的整体行为。
  • 分层抽样意味抽选部分股票以达到和基准指数相同的行业分配情况和权重比例。从图1中,我们可以清楚地看出分层抽样的具体方法:


 


 
图一
 
对于全样本复制方法,虽然跟踪误差最小,但将牵涉到非常高的交易成本和冲击成本,因此它是在实践中通常不使用。分层抽样的方法一方面从理论和优化方面,更加科学,易于实现,容易取得更好的优化结果。同时由于成份股数量较少并且冲击成本较小,在实践中被较多使用。
 
指数基金合成的第二步是组合构建。当我们选择了股票组合以后,接下来我们需要分配权重。在本文中,我将用三种优化求解方法进行指数模拟,它们依次是跟踪误差最小化法,相关系数最大法以及Beta 系数法。对跟踪误差的公式可描述为如下: 
 

 

 
 我们可以看到从上面的公式,优化算法的基本条件,要么保证跟踪误差最小化或者确保相关系数最大化,这两种方法的限制条件是相同的:个别股票的权重是0和1之间;个别股票的权重总和为1
 
最后,我提供了第三种方法来模拟指数,虽然这种方法不太流行。我将这种方法称为Beta构建法。这种方法的原理和前两种一样,约束条件也是相同的,唯一不同的是优化条件为Beta = 1。在我的实证研究,我将用VB.Net平台的牛顿切线法进行规划求解,完成指数基金构建的金融模型。
 
实证部分:
这部分将展示在中国股票市场的被动投资(指数基金构建)的应用。理论部分已经介绍了被动定量投资的2个步骤:第一个是选股,第二个是模拟权重。在实证测试,我通过VBA开发了一个指数基金模型,模型界面见图二,基本包括分层抽样和权重选股两种选股模式和三种优化求解方法(跟踪误差最小化,Beta,相关性最大化)。 

 


 

图二

 
实证部分我只采用分层抽样的方法,分层将覆盖9大产业和67个权重股,同时我将应用这三种模拟方法分别构建三种不同投资组合,并比较其与基准的业绩对比情况。在附录中,我列出的这67只个股构成,行业别,电脑模拟的权重分配以及自2010年以来个股对应的价格变动。
 
样本期间从2009年6月1日开始至2009年12月31日。在2009年半年数据基础上,我使用了前述3种优化求解方法进行指数模拟。表一中列出在样本期间和样本外预测期间业绩的表现(2010年1月1日至2010年8月13日)。该表左边的部分是在模拟时刻的各项统计指标汇总,而右边部分描绘了8个月后的各个统计指标实际结果。从表中可以发现这三种优化求解方法的模拟,经历了8个月,在不改变任何个股构成和权重的前提下,业绩表现依然相当成功。在这三种方法相关系数法表现最好,8个月后相关系数依然保持99.46%和跟踪误差仅为0.13%。
 


 



 
表一
 
从三种模拟指数基金组合的业绩与基准比较表我们可以得出类似结论。表二提供了沪深300的表现与三种模拟指数基金组合回报对比,同时也提供了在中国股市8个主流指数基金业绩的对比。从表中我们发现了相关系数模拟方法在三种模拟方法最好,在样本外预测期,得到回报最接近于沪深300。Beta构建的方法得到最高的回报,但是从指数基金建设的原则上来说表现是最差的,因为它与基准的偏差8个月后最高。最后,我将相关系数求解方法与主流指数基金的表现相比较,它也得到最好的业绩(8个月后,与沪深300最终误差最小)。

 


 

最后,我将这3种模拟方法的累计回报和沪深300收益累计回报在图三进行了对比。结果表明,这三个模拟方法非常成功地模拟沪深300指数,直观上看,从模拟时间开始8个月后,全部保持与指数最小的跟踪误差。


 
 

 
图三
 
虽然中国股市不像发达国家那样有效,信息披露机制也并不公平公开,但被动投资的方法在中国A股市场却表现较为有效。从实证的角度看,相比主动投资方式,被动的定量投资结果更为激动人心。根据最近的一次与基金公司的采访,上述现象的部分原因来自于落后的资讯科技应用,同时,在指数基金领域,有较少的定量分析师能独立写计算机编码,通常依靠内部IT部分完成,从需求分析到最终的产品间总是存在这样那样的不一致性。同时也有部分基金依赖于一些所谓的“黑匣子”的软件造成算法的不公开和后期组合维护的难度。

 

谈到量化行业配置,国外经典行业配置理论是美林周期时钟,国内主流的卖方市场也相应针对这个主题发表过较多的报告。国泰君安对美林时钟进行了扩展,将美林时钟和中国行业分类匹配,提出自己的四个周期行业轮动理论,本质上只是借用美林时钟的思维框架提出自己的行业周期轮动,结论和美林时钟有较多矛盾之处。联合证券,长江证券,中金公司以及国信证券都有其独到的行业配置理论,依次从行业弹性,个股与行业指数的相关系,周期行业与非周期行业区别,以及行业关联网络等角度报道,主要原理都在于追踪市场。在本文中,我将建议性提出“内幕信息”探测器,同时将遗传算法,优化求解,多元回归,主因素分析应用于量化行业配置中,尝试构建适合于买方机构的月度量化行业配置框架和流程。

第一部分:理论框架

(一)     再论美林时钟与行业配置

国内比较流行的华安行业轮动基金,东吴行业轮动基金等都基于行业周期轮动。首先让我们将传统的美林周期时钟和中国目前的金融市场相结合进行探讨。美林时钟是一种以直观的方式将大类资产配置和行业配置与经济周期轮动相结合的研究办法。在现实经济和资本市场,有一个明显的行业轮换和投资时钟的事实。如图一所示,我们可以比较清晰地将经济周期分成四个阶段,分别为经济衰退,经济复苏,经济过热和经济滞胀,周而复始运行。



 

 

图一

在谈论四个阶段之前,我想先引入GARP选股(详见量化选股在中国市场应用之二揭开量化选股面纱),同时在美林时钟理论中,我将GARP选股和美林时钟四个阶段将结合进行探讨行业周期轮动效应。常见的行业内选股我们通常喜欢使用GARP(Growth rate at reasonable price)模型以及模型衍生, 在国内市场,长江证券,中信证券,联合证券都对这一模型进行了延伸论述。华泰联合证券在这个方面最具权威,先后发表过20篇行业内选股的文章。以上三家券商报道GARP的时候,通常将选股的条件分为低估值和高增长两大类进行筛选,希望找到这两类属性同时具备的股票。事实上,我建议可以将美林时钟和GARP相结合,在美林时钟经济复苏和衰退阶段,以高增长作为主导的选股方法,在经济过热和滞涨阶段,以低估值作为筛选标准。

经济衰退阶段:

在这一阶段,股票疲软,大宗商品暴跌,整个市场处于降息的通道,收益率曲线在剧烈下降,故而大类资产方面,债券是唯一最佳选择。行业配置层面上,防守性增长型股票如金融行业通常被投资经青睐。

经济复苏阶段:

经济加速发展,通常在这一阶段,股票市场繁荣,现金贬值,我们的首选大类资产是股票,其次是债券市场。通常在这一阶段,周期性成长股以及行业生命周期前导期的小市值股票大多被建议,一般而言,GARP模型选股中间,成长性成为此阶段较为成功的选股方法。我们有理由相信:中小市值的高科技股票,新能源新材料将成为这阶段的热门,事实上中国2010下半年就属于这个阶段。

经济过热阶段(景气):

在此阶段,物价飞涨,通现金贬值,政府通常进行加息或提高存款准备金,这样对利率较为敏感的债券将面临贬值,市场上大众商品成为主流的投资对象,与大众商品相关的股票成为了较好的选择。同时这一阶段,处于对通货膨胀的担忧,投资者对保值需求相当强烈,有色金属,矿业,房地产以及传统机械等周期性价值股将会成为市场投资的热点。这个阶段属于中游行业和大市值权重股的天堂,从GARP选股角度而言,大市值股票由于处于产品生命周期的成熟期,其高增长的黄金年代已然不复存在,市场的关注热点将会落到估值等相关指标上。

经济滞涨阶段:

这一阶段,通常面临经济危机,股票市场在经历上一阶段的泡沫经济后出现暴跌,现金开始成为最佳选择,没有行业能够获得绝对收益。相对而言,需求弹性较小的公用事业,医药将在这一阶段表现最好。这一阶段有别于经济过热时对金属价格的敏感性,对石油价格敏感的能源股也将在此阶段表现较好。在这一阶段中,GARP选股更加侧重于估值类指标。2010年上半年就比较接近于此阶段,经历过2009年大反弹之后,市场变得更加理性,公用事业,医药板块成为市场投资热点,低估值方式也成为量化选股的主要参考标准。

以中国2010年股票市场的9个月的演变过程,先后经历的是经济复苏期,经济过热,经济滞涨期三个阶段,在此三阶段中间,中小市值高科技板块,债券市场,有色金属,医药板块先后成为市场投资热点,按此逻辑推断,在未来3个月甚至明年上半年期间,市场如果出现反转,应该由金融行业反弹开始,接下来依旧再次上演中小市值高科技板块以及创新概念板块复苏的格局。

基本上,美林时钟理论的应用程序逻辑是首先把握了目前市场的经济运行周期,之后在对宏观周期识别的基础上,进行不同周期的行业配置。这种方法最大的缺陷是很难识别宏观周期,同时中国市场处于一个告诉黄金发展期,上述的行业周期四阶段通常在很短的时间内完成,而且演变顺序也将会被打乱。

(一)    “内幕信息”探测器

在中国这个弱有效市场,基于人脉网络的宏观政策解读的作用将远远大于美林时钟的作用,而这种基于宏观政策的解读将会直接决定投资机构大类配置和行业配置及时的调整。在既定的大类配置和行业配置成功的前提下,个股选择的作用显得相当的灰色。让我们看一组历史上大类配置与行业配置的数据:布林森,辛格和比鲍尔(1997)对美国82家大型多元的养老基金从1987年到1997年十年间的业绩进行研究。结果表明:战略资产配置(也被称为大类资产配置)和行业配置决定投资组合回报91.4%。同样博特森和卡普兰(2000年)在耶鲁大学也做过美国共同基金和养老基金的投资回报类似研究。结果表明:资产和行业配置贡献在共同基金和养老基金的总回报的贡献依次是87.6%和90.7%。以上所有均展示资产和行业配置在投资组合的总回报中的重要性。

这组数据的结果暗示具有稳定业绩的基金收益更多的来源于配置,其中包括大类配置与行业配置,这些配置的背后隐含的是宏观政策的解读。在中国,大部分业绩较为优秀的基金具备较强的人脉网络,同时有别于发达国家,中国也疏于对“内幕消息”的监管,优秀的基金公司通常可以通过“地下”渠道获得来自政府的所谓的“内幕消息”同时结合自身对宏观经济政策的判断,较好地对未来的行业配置提前布局。

如果我们可以通过定期高频数据分析,发现市场行业资金流向,同时通过一些量化手段,定期分析出优秀的基金公司在近期的行业配置,将两方面结果相结合,这样就可以较为准确地进行下一阶段量化行业配置。在这里我想指出,在实际应用中,基于高频数据的资金流向有时会有别于市场主流的资金流向结果,特别是在中国市场,容易出现尾盘拉升的前提下,故而资金流向的量化计算技术也将成为决定量化行业配置成功的关键因素。

其实上述量化行业配置的主要原理是跟踪市场与遵循强者“following the winner”。我们但这里面最大的问题是我们假设这些基金都采用买入持有的战略,调仓不频繁,同时不会刻意隐瞒自身的持仓情况。在中国,通常基金公司的大类配置与行业配置资料会按季度公布的,由于公布的频次较少,这种问题无法回避。但是如果转而研究近期月与季度基金净值与行业指数的关系,以日数据作为研究对象或有所发现。具体而言,一个成功的基金,可以掩盖其持仓数据,但通过对净值与行业指数定期做出基于日数据的多元回归分析,我们不难发现其逆市上扬背后的行业配置变化。

这种方法最大的问题是,我们忽视了多重共线性的影响。我们可以使用主成分分析和逐步多元回归来克服上述因素的影响。回归的第二个问题是,我们假定基金净值之间和行业指数之间有线性关系,同时基金公司的投资风格是买入持有风格且不能出现卖空现象。但这个假设在中国市场是很不容易做到,因此上述结论与实际情况通常会有所偏差。第二个问题的解决方式是通过遗传算法和神经网络解决。

理论上,我们可以使用遗传算法和神经网络通过行业指数对基金净值进行复制,而不采用线性回归的方法。正如理论界学者描述:“神经网络算法本身不用假设变量间的线性关系”(鲁梅哈特,麦克莱兰1986年与瓦瑟曼1989年)。“他们在统计变量间非线性关系上具有较好的效果”(怀特和斯廷奇康姆1992年)。遗传算法和神经网络的引用克服了诸如线性回归模型的限制。

侯赛因,马赫迪(2007)指出:“在许多现实世界的问题,例如金融领域,人工神经网络(ANN)模型在数据分析任务上超越了统计多元回归技术。特别是在底层模型非线性的前提下,神经网络有着更好预测效果。其在缺乏背景知识和假设前提下,具有对输入与输出值有良好的学习能力”。

遗传算法最大的缺陷在于,应用神经网络之前,要确定太多初始化参数,而这些参数默认值设置的不同将直接会导致最终计算结果的差异。在这里,我另外再建议一种合成基金净值的方法。这种方法得益于中金公司量化投资一位研究人员的一点启发以及我之前研发的指数基金合成方法(详见量化投资在中国应用系列之四:指数基金构建与实证)。具体而言,我们可以将行业指数与基金净值以相关系数和追踪误差作为优化条件,尽可能增加相关系数或者减少跟踪误差,以此复制基金的净值。

实际应用中,如果我们能够结合基于高频数据的行业资金流向,主因素分析,多元回归,优化算法和遗传算法计算结果,较为有效地完成我们的量化行业配置。在实际应用中,我们可以先通过主因素分析将行业指数进行归类,之后再通过多元回归模型和遗传算法来寻找基金行业配置的重大变化。同时结合基于高频数据的行业资金流向,找出主流优秀基金具有一致性结果的行业配置以及配置变化情况。

 

第二部分:实证分析

在实证部分,申银万国一级行业分类23个行业指数与2010年上半年表现较好的华商盛世成长基金,东吴价值基金,信诚盛世蓝筹成长将会被作为研究对象。以上方式只是为了实证分析的简便性,实际中,建议考察业绩表现较好的前10大基金的行业配置情况,以此作为判断标准。由于涉及的行业过多(23个行业),通常情况下,在多变量的数据组中,很多变量会出现一种共同移动的趋势,而我们可以做的是用一个或几个新变量来替代原来共同移动的一组变量,实证中我将使用主成分分析的方法推行这种降维方法。

 

(一)     主成分分析

关于多变量回归分析,我们首先要确保23个行业指数是相互独立的变量。首先我用抽取法对23个行业指数从2010年1月2日到2010年3月31日做主成分分析检验。见附录1,我们可以看到总方差结果看出,我们发现,前两大因素已经解释总方差的83.37%。因此,在附录2我抽取了前两大因素作为主因素矩阵。

根据中国A股股票市场的规定:我们不能卖空股票,因此和大量负系数组成部分是毫无意义的,因此在附录2,我只使用第一个因素作为降维因素。通过检查主因素矩阵结果,我们发现,所有23个行业的系数全部是有正值并且是显著有效。从数值上看,它们基本上都相当接近0.8。基于这个结果,我们很难剔除任何一个行业。

我同时也针对申万二级行业分类(79类行业指数)做了相同的主成分分析测试,结果是相当类似的。我们可以发现,前4个组成部分的解释了总方差的87.0%。但从主成分矩阵看,79个行业的所有系数都是显著的并且接近0.8,所以我们也不能降低二级分类里任何维度。

(二)     多变量回归分析

让我们运行前三名基金的净值和23行业指数的多变量回归模型,样本期间为2010年1月2日至2010年3月31日。附录3,4分别显示基金(华商基金)和行业指数的回归结果。首先从附录3表明,决定系数(R平方)非常高(91.6%),这意味着多变量回归模型可以解释91.6%的方差,回归非常可靠。我们还可以找到其他的数字也很大,如R(95.7%)和调整后R平方(88.6%)。附录4描述了多变量回归系数,它表明,华商基金主要与医药生物,建筑建材,电子元器件这三个行业相关。对于机械设备和商业贸易行业,尽管其中系数较高,但P-Value都大于0.05。这意味着在95%置信区间,这两个行业指数都是不显著。以下公式表明华商盛世成长与行业配置的关系:

 

华商基金= 0.512*建筑建材+ 0.287*医药生物 + 0.220 *电子元器件+ ...。

 

通过检查其他两个基金(东吴价值增长及信诚盛世蓝筹)的回归模型结果。我们可以发现从模型摘要(在附录5和6)即确定为东吴与信诚模型决定系数为94%和96.3%。作为一个多变量回归模型,这样的结果是相当可靠。附录7与8描绘为东吴与信诚两家基金的回归系数,它表明医药生物,机械设备和商业贸易是东吴基金重点配置的对象。与此同时,信诚基金与医药生物,建筑建材,机械设备和商业贸易有较强的相关性。这种关系可以由由下面的公式给出:
 

东吴价值基金= 0.310 *机械设备+301*医学生物学+0.259*商务及贸易+ ...。

信诚基金= 0.352*建筑建材+ 0.349*机械设备+0.313*商贸贸易 + 0.245*医学生物+ ...。

 

(三)     优化算法与神经网络

多元回归算法主要弱点是,在中国A股股市,股票是不能卖空的,因此如果一些行业指标的系数是负,同时也被证明是显著的,这样的回归模型结果是会受到质疑的。 

在前文部分,我提到对于量化行业配置,我们也可以使用不基于线性关系的遗传算法和神经网络的。但在实践中,我们发现有太多的参数是预先设置的,如果这些参数进行变化,在同一时间遗传算法的结果将会是完全不同的。所以在下面的实证部分,我将使用优化求解(基于相关系数或跟踪误差)与遗传算法相结合的行业配置方法。

本测试中使用23个行业指数与基金的净值的遗传算法模拟以及优化求解,以期实现减少了23个行业之间的组合和基金的净值的跟踪误差最小化。

附录7描绘这三只基金权重分配的结果。很明显,这三个基金的经过遗传算法和优化求解之后的跟踪误差都相当小接近于零。从附录7,我们发现华商基金主要是与建材行业,生物医学有关;东吴基金与医学生物,餐饮旅游相关;信诚蓝筹主要取决于机械设备,生物医药和建筑材料。这种关系可以说用由下面的公式表示:

 

华商基金= 0.38 * 建筑材料 + 0.25 * 医学生物学 +  ...。

东吴价值基金= 0.34* 医学生物学+ 0.27 * 餐饮 + ...。

信诚基金= 0.2 *机械设备+ 0.24*生物医学+0.19*建筑建材+ ...。

 

接下来的步骤比较这2种方法行业分配的一致性。从表一,我们可以发现,这两个模型的结果是惊人的相似,证明双方的有效性。在表一中间,我用****背景强调这两个模型之间的重合的重配行业业。从上述两个模型的结果,我们从2010年4月1日起开始,应该重点配置的行业是建筑建材,医疗生物和机械设备。其中样本期间为2010年1月2日从2010年3月31日。

 

另一种解释是美林证券的行业周期。在2010年第一季度,中国正在经历的衰退阶段(滞胀)由于对房地产和金融业的宏观调控。这三只基金均持有医疗生物产业(防守型行业),这个是基于滞涨期的判断。同时,滞涨之前的经济过热期保留的机械设备也是其重点配置。所有这些都与美林证券的行业周期时钟相一致。


 


 

图二

 

最后,我用这3个行业指数组成一个新指数(即所谓的合成图图二)。合成指数的回报计算只需使用这三个行业的平均日收益率,并将其与沪深300收益率序列同时展现。在图中,我们可以看到合成指数与沪深300指数累计收益率序列综合比较。 

在样本内区间范围内,沪深300和合成指数不存在显著差异。然而,在样本外期间,对比结果表明该合成指数表现远远超过沪深300指数。从43日至430日,该合成指数达到最高点上涨3.2%,同期沪深300上涨0.1%。从51日至71日,两个指数均处于下跌状态,但合成指数下跌速度明显低于沪深300全收益指数。表二是两种指数的收益率与风险对比表:



 

表二列出沪深300指数和合成指数的统计汇总。结果表明:虽然合成指数风险相当接近沪深300,合成指数累积回报远远战胜沪深300指数(-5.05%的较大比-7.5%)。在同一时间,我们也可以看到合成指数的夏普比率远远高于沪深300指数(即较大的比-11.90 -7.77)。 (作者:太平资产管理有限公司李琦)

总之,上述分析表明,量化行业配置在中国A股股市相当有效。

  评论这张
 
阅读(646)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017