2008诺贝尔经济学奖获得者Paul R. Krugman(2009)曾在《纽约时报》发文抱怨经济学领域误入歧途是经济学家之过,他们错把那些美妙的,令人印象深刻的数学当作真理。重要原因是原始的数据不真实不有效,统计数据失真,存在很长时间的滞后。
“无标度网络”创立者Albert-Laszlo Barabasi在《爆发:大数据时代预见未来的新思维》提出:人类行为93% 是可预测的,预测的基础是人类生活数字化的大数据时代基础。在社会化媒体上,数以亿计的普通用户创造的海量信息内容(User Generated Content,简称UGC),如截至2013年12月,中国微博用户规模达到2.81亿。仅新浪微博在2013年12月,共有超过28条亿的微博被发布。
Bollen Johan等(2010)对2008年3月-12月间的985万条Twitter信息进行数据挖掘,从行为经济学的角度出发,研究发现公众的情绪状态可以对道琼斯工业平均指数收盘值的进行预测,其中冷静情绪可以预测的正确率达到87.6%。
在Johan等人的研究基础上,在2011年5月,世界首家基于社交媒体的对冲基金Derwent Capital Markets上线,一期的规模为4000万美元,该基金将利用Twitter帮助公司投资。基金创始人保罗.郝汀(Paul Hawtin)表示:
长期以来,投资者已经广泛地认可金融市场由恐惧和贪婪驱使,但我们从未拥有一种技术或数据来量化人们的情感。Derwent就是要通过即时关注Twitter中的公众情绪指导投资。
如今,Twitter已经不再是一个简单的SNS社交工具,而是可以判别你心情的晴雨表。如果Twitter被证明是一个可靠的市场指标,公司可能会从更多的社交媒体获取数据,如Facebook、Google trends及其他来源。
Eric Gilbert(2010)等人从心理学角度分析群体担心惊恐情绪与股市的关系,以Live Journal共2000万个帖子为数据基础,研究表明悲观情绪会导致股价短期内下跌,与股票指数成反相关,焦虑的标准差增加1%,收益率会下降0.4%。
Zhang X. et al.(2011)认为当民众对未来的态度是悲观或不确定时,投资和交易更谨慎,并使用如“hope”、“fear”、“worry”等的情感词。于是,当带有上述三种的情感词的微博数量快速增长时,往往预示着道琼斯指数将要下降。通过对数据的整理和分析,研究发现这三种情感指数与道琼斯、纳斯达克和标普500指数存在负相关关系。
表1:社会化媒体与股票指数相关性研究
学者 | 数据来源 | 主要结论 |
Wysocki | 股票网站上对3000多支股票,共946000条股评 |
股评数量对次日的股票交易量的变化和异常收益率的变化有预测作用 |
Johan Bollen, Huina Mao, Xiao-Jun Zeng | 8个月的共9853498条twitter | 对收盘价预测准确率为87.6%,冷静情绪的预测效果最好 |
程琬芸, 林杰 | 5个证券媒体的新浪微博和评论,分别66317条、1207693条 |
涨跌情绪与证券市场指数收益和成交量有正相关关系,短期影响显著 |
Zhang X, Fuehres H, Gloor P | 6个月内全部twitter的随机1% | 情绪指数与大盘指数负相关,与波动率正相关 |
Eric Gilbert, Karrie karahalios | 2000万个Live Journal的帖子 | 悲观情绪会导致股价短期内下跌,焦虑的标准差增加1%,收益率会下降0.4% |
社会化媒体的内容以非结构化数据和半结构化数据为主,传统的数据挖掘方法以结构化数据为主。通过网络爬虫或社会化媒体的公开API收集用户的内容和相关信息,对用户的信息进行统计、分析和挖掘,包括以下方法支持向量机(SVMs)、脉冲响应函数、遗传算法(GA)和文本聚类技术等,将研究范围从某一事项的预测等微观层面扩展到行业分析与自然灾害等宏观领域,拓宽文本挖掘研究的范围。
在现有样本选择方法中,内容相关的方法大幅度降低了工作量,但存在遗漏大量相关用户UGC的风险。时间跨度选择的合理性需要给出合理的解释,为什么是选择12个月的数据而不是更久?时间跨度是否在一个经济周期或事件周期内。目前,时间与内容相结合的方法使用的最多,降低了工作量,减少了噪音,但也需要给上面两种方法的问题给出合理的解释。作为学术研究,在核心的环节,全凭主观判断范围和内容显然降低了研究结论的客观性、科学性和说服力。
一、从数据处理看,社会化媒体与诸多经济现象之间存在相关性,但这种相关性尚无扎实的理论基础作为支撑,这一研究领域的发展与应用必然受到制约。有学者认为社会化媒体最多只能反映网络舆论,不等于社会大众全体。尽管社会化媒体的样本量很大,由于“数码沟”的存在, 中国仍有55.9%的民众为非网民,他们的意见不能在网络上得到充分地体现。Tumasjan A.等(2010)经常发布政治推文的用户仅占所有发布政治推文用户数的3.9%,而所发布的政治推文数量却占到总数的 44.3%。
二、网络意见表达与真实行为的差异。社会化媒体内容分析和预测隐含的一个前提是网络用户表达的内容是大多数现实生活中的人们的真实情感。在虚拟网络中,自我选择偏差(self-selection bias)的存在,在网络上表达意见的只是“自我选择”的少数,有沉默的大多数的存在,因此网络上的“主流意见”甚至都无法代表全体网民。同时,由于表达环境的不同,网民在社会化媒体上表达的内容,与其线下的实际行动不同,在网络上容易受到意见领袖的影响,而在现实生活中容易受周围人的影响。 (本文作者弘毅与Vito,首发于钛媒体)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
自己给自己评论一下:在当前情况下分析社会化媒体中的信息与股票指数形成某种线性和非线性的关系的研究是没有意义的,在很多论文中没有考虑到企业的知名度、市值影响和企业是否为龙头,股价影响要素之多,超乎想象。