文|钛资本研究院
随着阿尔法围棋(AlphaGo)击败人类职业围棋世界冠军李世石,人工智能或将取代人类的讨论不绝于耳。但从业内或研究的角度来片,以目前的技术水平,要想实现能取代人类的人工智能系统,还非常困难。
在这点上,美军的做法比较有借鉴意义,他们的思路不是希望系统取代人,而是用人工智能在感知和认知层面上增强人的能力,实现人机协作。由人进行最终的判断和决策,机器完成相关的细节收集、整理等方面的工作。
在钛资本新一代企业级科技投资人投研社第27期,中国科学院软件研究所研究员、数据地平线(广州)科技有限公司首席科学家薛云志博士分享了知识图谱的创业及投资机会,以及从实体相关性跨越到事件逻辑关系后事理图谱的价值、创业投资机会。
薛云志为中科院软件所博士、清华大学MBA,ISO/IEC SC42(人工智能国际标准化)专家、人工智能国家重大专项专家组成员、某专家组首席科学家,主要研究方向集中在自然语言处理和知识图谱。
知识图谱技术的创业投资机会
所谓事理图谱,是一个特殊品类的知识图谱。知识图谱的创业机会可以分成四个层次:
第一个层次的创业机会是关键技术,涉及到数据的清洗、ETL等操作,还有非结构化文本抽取、OCR(尤其是面对一些复杂单据的OCR)、实体链接、图数据库等关键技术。
这个层次的创业,对于创业者而言很容易切入,因为相关的关键技术,在过去各个学术机构、研究机构里完成得非常多,很适合技术出身的创业者。此外,现在大多数相关的知识数据都是以非结构化的文档形式存在,相关需求非常大。
但也有劣势:第一,面向客户的技术部门,在大多数企业里是成本中心,所以投入不会特别高;第二,以目前AI技术的发展水平,要想在关键技术层面做到非常高的准确率,难度很高;第三,在关键技术层面上,不管是做非结构化的抽取还是做单据的处理,每一个场景、客户的数据,以及对数据后续处理需求都不一样,所以特别容易陷入定制化的泥潭。
第二个层次的创业机会是数据,除了基本面数据之外,也包括行情数据、另类数据、舆情数据等等。
在这个层次的创业,需求比较广泛,也比较持续。假如今年采购的技术满足了需求,明年就一定会按这个需求进行采购。此外,相对容易标准化。再次,一般都是业务部门使用数据,所以也会有一个附带的优势,即用户黏性相对较高。
但也存在劣势:一个是数据采集时,往往边际成本不太容易降低,因为每一个数据采集时都需要有基本同样的投入。比如另类数据里比较典型的电商数据处理,几乎处理每个新类型数据或新数据源时,要花费的成本相对都比较高;而数据采集的技术门槛相对比较低,竞争者也比较容易进入。
第三个层次的创业机会是知识图谱产品,包括工商知识图谱、产业链知识图谱等,现在市面上有不少供应商在提供这样的产品和服务。
其优势是相当多的知识图谱都可以标准化,类似于天眼查的工商数据就是一个很标准化的知识图谱,而且门槛还挺高。要想再做一个新的,达到现的高度还不那么容易;另一个就是可以嵌入到用户的工作流程当中,用户一旦采用后的再更换成本相对较高。
劣势首先就在于这不是一个特别直接的业务场景,一般都需要经由某个应用产品来体现。其次是以目前的技术发展水平而言,要保证高度的覆盖率、准确率,成本就会快速上升。
第四个层次的创业机会是应用场景类产品或服务,包括两类:旧场景的优化,以及知识图谱所能赋能的新场景。
这四个层次的创业机会,从价值上来讲,是从下往上逐步提升的:关键技术虽然说很重要,但它的价值溢价最低;应用场景类相对较难,但如果能寻找到一个新场景,它的价值溢价应该最高。
当然从适合的玩家来讲,越往下的技术越适合大玩家大平台,比如阿里云、腾讯云都部署了很多类似的服务,做非结构化文本提取且应用的比较成功;初创企业当然也可以做这类应用,但往往比较困难。
对于小企业、小玩家而言,最合适的切入点应该是场景类,场景一般都直接面向业务,所以技术价值可以充分体现,而且这些场景业务更换成本相对比较高,用户黏性也高。只是要寻找到合适的场景,需要对业务有更深刻的理解。
从以上的几个层面来分析,数据和应用场景类创业最容易,当然在关键技术和知识图谱产品领域创业或投资未尝不是一个好选择。在场景方面,可以做哪些事?
上图列了17个场景,涵盖了现在知识图谱在泛金融领域大多数的应用。其中旧场景优化包括传统数据终端的增强、知识库以及搜索、问答,还有信贷的很多操作。之所以说是旧场景的优化,是因为过去采用关系数据库一直在做相关工作,只不过没有知识图谱的大规模数据关联能力强。
新场景是从2015年开始才逐步发展起来,甚至绝大多数场景现在还处在相对较早期阶段。现在已经有很多公司在做自动化的审核、合规性的审查等工作,但是针对金融文档的复杂性还是起步阶段。
此外,金融文档包括生成、监管、风控等都有很多探索性的工作,远没有到能够出现垄断性的产品或者一系列产品的出现。而恰恰在这些新场景里,有泛金融应用领域相对比较核心的业务,所以如果能有效解决这些场景中的需求,应用场景价值就相对较高。
将知识图谱技术应用于金融场景时需要考虑哪些问题?
一个是有很多人会把知识图谱的“图”用于讲故事,但用户其实并不需要了解知识图谱本身,也不会在实际使用时对着“图”查、拽、看,需要的是知识图谱所能带来的能力。所以设计一个场景或产品时,并不需要把知识图谱本身显示出来,而是要看知识图谱能给产品赋予何种能力。
另一个是以目前的技术发展水平而言,知识图谱准确率无法达到100%,也就是知识图谱数据抽取的准确率、实体链接的准确率、推理的准确率等都无法达到100%。如果场景对准确率有非常高的要求,可能就很难推进下去。所以设计的应用场景或者产品,需要对知识图谱的准确率有一定的容忍性。
知识图谱与事理图谱
在这几年知识图谱又开始火热起来,大多人认为知识图谱是解决从感知智能到认知智能的一个基础性工具,到最后是否能够落到实处,还是要看研究的进展。
那么什么是知识图谱?
知识图谱是由本体(Ontology)作为Schema层,与RDF数据模型兼容的结构化数据集。简单理解就是把各个知识点串联起来的一张图。知识图谱不是一个新概念,从上世纪70年代开始,经过语义网及网络等等一系列的概念,在2012年5月由Google引入的,主要目标是为解决搜索关联性的问题。
上图是典型基于RDF的知识图谱表示,所描述的是关于美国建国时的知识点,比如美国的首都在哪里、有哪几位总统、总统有哪些特征等。这张图有一个非常明显的特征,就是每个节点都是一个名词,名词和名词之间是线上写的关系,这是到目前为止所有主流的知识图谱非常显著的一个特征。
DARPA(Defense Advanced Research Projects Agency,美国国防高级研究计划局)把一般理解的数据、智囊等等从下到上分五个层面:
- 第一个层面是数据,原始的信号或激励;
- 第二个层面是信息,就是事实类的问题,如什么、谁等等;
- 第三个层面是知识,相关性和组合性,回答How的问题;
- 第四个层面是理解,回答为什么的问题;
- 第五个层面是智慧,主要是人做的判断和决策,机器主要做下面四个层面。
从学术角度或数据理解的角度来讲,知识图谱解决了全部信息类的问题,就是那些事实类的问题。另外知识点之间的关联,名词之间的关联可以解决一部分组合性和相关性的问题,比如从图上可以推理出来林肯和霍金维尔市关系等。
过去可能有一些知识没有直接表达,但是可以借助一些网络之间的推理关系、连接关系推理得出,所以知识图谱从信息的角度来讲,是全部的信息加上一部分的知识。
知识图谱的主要应用体现在几个方面:第一,推荐任务,像经常使用的搜索引擎及类似于今日头条内容性的搜索都是推荐类的任务;第二,风控任务,包括金融授信模型、反恐还有情报领域的危险识别,比如美国的Palantir公司用知识图谱识别本拉登的线索,都属于风控任务;第三,知识管理类的任务,如问答、客服等等;第四,知识发现类任务。
知识图谱没能解决什么问题呢?
其实在很多领域都会看到与逻辑有关的问题,比如在金融投资领域对事件的逻辑关系进行推理、推演、预测等需求,同时在军事、反恐、情报、舆情领域也都有相关需求。
也就是说,从DARPA的五个层次来分,主要是知识类和理解类的问题没有解决。
在人思考问题时,会看到各种“如果”“因为”,在研究问题或表达想法时用的也都是各种逻辑,这些逻辑基于名词的知识图谱是非常难以表达的。再回到看17个场景中,有大量“如果…”“就…”,即使用大量逻辑来表达知识库,例如金融产品、精准营销以及新场景中的自动化审核、审查、审计、风控、监管、投资研究等都与逻辑密切相关。
事理图谱试图刻画原来知识图谱没有办法解决的这些逻辑。从技术角度,希望能够从实体的相关性跨越到事件逻辑关系上。上图左侧就是知识图谱,右侧是完全不同的一张图,就是事理图谱,两者之间非常显著的区别表现在两点:第一,各个节点不再是名词而是一个事件;第二,每个边上都是事件之间的逻辑关系。
举个例子,上图左侧是关于降准事件的因果子图,右侧是关于出行事件顺承的子图,所谓顺承就是有先后顺序,从出行开始都会有哪些可能的动作,每个动作接下来的动作会用图谱完整的刻画出来,这两张图谱都是用自然语言处理技术从文本当中自动抽取出来的。
事理图谱表达的是事件和事件之间的关系。首先定义一下事件是什么。这里采用ACE的定义,事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
根据事件之间的关系划分,可以把事理划分为几类。一类是因果事理,占据了描述逻辑的80%左右,形式都是A导致B。除此之外,还包括条件、反转、顺承、上下位等类事理,每种都是人经常会使用的逻辑模式。
事例图谱怎么构建出来呢?从总体大的流程可以分两大类:一类是手工构建,好处是相对比较准确,但是坏处也是显而易见的;另一类是用自动化的方式构建。
上图是流程示意图。从各种研究报告、财务报告、公告、新闻资讯中提取出来语料,经过一定的数据清洗、预处理后做事件识别,再做相关关系的属性抽取。还要做融合与对齐,就是一个事件不同的人会有不同的表达方式,要找出这些不同的表达方式,再融合成同一个表达方式。
结果还要做分层泛化和存储,分层主要指的是要把事件逐层的做抽象,比如范冰冰阴阳合同事件,如果直接存储将导致后续难以使用,但是泛化分层可以把相关的主体、客体和相关的主要要素分层,可以把范冰冰泛化成明星、再泛化成名人,而对于阴阳合同可以逐层泛化成偷税漏税、负面事件等等,最后再做成一个比较完整的事理图谱。
上图是整个过程,左上角是起点,就是范冰冰阴阳合同事件发生时的一个新闻,先识别出主要句子,再把主要句子经过一系列技术流程,逐步转变成右上角一系列结构化的数据,这就是事件抽取的过程。当然在事件抽取出来后,还会再形成很大的一张网络。
在之前的工作当中,已经做出一个面向二级市场的金融领域事理图谱,现在这个事件数量接近一千万而且每天都在增长,在国内算是规模最大的一个金融事理图谱结构。
事理图谱对应用场景赋能的基础,从技术上提供了可供检索、推理、推演、预测的事件上下文。在过去没有事件上下文进行推理时,带入了很多先入为主的处理,难以规模化也无法自动化,所以事理图谱能够提供一个让逻辑能表达出来的基础,从而让很多依赖逻辑的事件可自动化、智能化。
像银行降准因果图谱和出行的顺承图谱,可以很自然的做事件之间的逻辑关系,比如银行进行降准可能会有什么后果,直接从降准图谱中查找即可,对推测事件之间的影响会比基于知识图谱方式来要直接、自然。
基于此图,还可以做原因的查找,比如发现贴现率下行的可能原因。也可以试图确定两个事件之间是不是有关系,比如降准和乘车费用增加之间的关系。从直观来看,事理图谱能提供一个逻辑推理的框架和基础,这是过去其它的技术所不具备的能力。
金融事理图谱的应用方向
第一,研究逻辑的智能管理。主要指的是把研究员和分析师头脑当中的分析逻辑表达出来。解决了研究机构现在的一大痛点,就是研究员、分析师走了,形成的研究逻辑就会被带走,所以一大诉求就是要把研究员、分析师的知识能够积累下来。
对研究员而言,也会涉及到用自己的分析逻辑做验证、更新,同时还要以自己的视角对海量的数据和资讯做智能的组织和分析,把现在每天看各种各样研究报告或数据的现状变成行为自动化。
研究逻辑智能管理工具是根据金融事理图谱开发的,上图是基本形态。它主要是以人为主,不是试图从几千万的研究报告、公告或者新闻资讯里完全构建一个准确的逻辑,其设计目标就是研究员做验证或更新的分析逻辑过程中,如何自动化的提供各种辅助。
当研究员指定一个事件或逻辑时,能在整个图谱里查找指定的前因后果,同时也对整个历史性数据做实证、验证,当然还会把相关的资讯和数据都链接在一起,为研究员提供预警和实时监控的功能。
第二,面向金融文档的深度智能核查和智能审计。现在很多券商、投行都已经在做完整的智能核查,比如IPO的招股说明书,就有券商、初创公司在做,但是整个核查的逻辑都是相对比较浅层和表面的,如果这个逻辑需要比较深入且相对比较多,那怎么才能把这些逻辑表达给机器呢?
由程序员一个个都编码出来很不现实。如果能够让负责核查、审计的人,像研究逻辑的智能管理一样,能够把自己的核查逻辑表达出来,实现到自动化的核查和审计工具中,就是一个非常好的深度核查、审计能力。
第三,公司债券风险的自动梳理。假如可以把公司债券都有哪些风险自动梳理出来,基于这些逻辑、风险的表现,就可以进一步的组织对各个公司的债券做风险管控。
第四,行业经营风险点的自动梳理。每个行业的经营风险都是各种各样的,究竟行业有哪些风险,只有在行业内摸爬滚打多年的资深从业人士可能才能摸得清楚,但也未必全面;所以在没有完整的行业风险表现时,要对行业的经营状况做评估、风险管控时,就比较麻烦,无法自动化而只能依赖人。所以如果能够用事理图谱把相关的风险梳理出来,也会对这类应用提供一个基础的数据能力。
第五,企业风险的智能化监控。现在也有风控类的产品,只能在实际导致风险的事件发生后才能监控到。如果能够借助风险事理图谱做推理,就可以在导致风险直接原因发生时或之前去看,可以更早、更快发现风险,挖掘的也更深入,这是与现有风控产品最大的不同。
第六,事件演化追踪与分析。像川煤债券的违约事件,前后过程都可以用事理图谱的技术梳理出来,而且是梳理所有相关的事件,而人在关注时只能关注很有限的层面。
第七,智能问答。这是相对比较通用的场景,但基于事理图谱可以实现更直接、更高效率和质量的回答。比如看到环保督查时要关注的点,因为环保督查这类事情已经被分析得很透彻了,能把逻辑整理出来,基于事理图谱做一个顺承关系,就可以为更广泛的用户区提供服务。
第八,服务或产品的预测性推荐,与精准营销相关。到现在为止的推荐基本上都是基于相关性,比如在搜索引擎或电商看到的推荐,买了一个商品后被推送类似商品,今日头条被诟病的信息茧房——看过信息被推送同类型信息。那有没有可能在用户做了一个动作时,就预测未来还会做哪些动作呢?
相应的提供预测性推荐。比如用户说“丽江是个好地方,我想去看看”,如果基于相关性,推荐的一定是与丽江本身相关,但基于事理图谱就可以从去丽江这个事件节点出发,可以看到可能的操作,比如买去丽江的卧铺票、提供逛昆明的出行指南,类似很多这些事情都可以从这句话开始做推荐。很多相关的金融服务跟产品都可以基于事理图谱做预测性推荐,进一步实现更精准的营销。
总之,现在面向金融行业的事理图谱是所有逻辑类应用场景能落地的一个场景。知识图谱描述的这些知识是一个本质的外围实体,研究对象是彼此之间的属性关系,事理图谱描述的更像是一个逻辑社会,研究的对象更多是这些事件及内在外在的联系。
简单来说在应用上知识图谱可以回答When、Who、What、Where等等常识的问题,事理图谱就可以回答Why、How等动态的问题。
事理图谱可以承载很多:一,可以承载金融产品或服务内在的逻辑表达,不仅是名词的罗列,可以把内在的逻辑关系用事理图谱表达出来;
二,可以把金融机构内部的运作知识进行提炼和存储,类似于研究员、分析师的研究逻辑或审计、合规逻辑,都可以提炼存储;
三,对金融事件的抽取和影响进行自动化监测分析,像利润的增长有哪些原因构成等微观经济规律,都可以可视化、形式化组织出来;
四,还可以承载海量数据和资讯的逻辑化组织与分析。
到今天为止,研究员、分析师、一线经理、风控人员,都是直接面对各种数据、研究报告、行业新闻和政策、公司公告等,这些如果能够用事理图谱按人的逻辑组织起来,将具有非常大的好处。在一些对逻辑要求非常高的金融新场景以及旧场景的优化上,能够对逻辑类的应用场景产生比较关键的价值,而恰恰这些场景是现在金融机构的核心业务之一。
在金融AI领域投资要注意几点:
一,赛道与团队。
金融机构内部人员出来创业的团队大多是销售牵引型团队,更多表现是市场能力比较强;另一类是技术引导型的团队。两者并没有好坏之分,而是要根据每个团队所面向的市场基础、产业规模及市场成长性来看,有些新场景在过去根本没有出现过,又或者现在整个市场都没有特别好的供应商,这时的销售能力是否一定就非常重要?这可能也是因时因地而异,所以还是要看每个团队所面向的赛道。
二,是市场型创业团队还是技术型创业团队。
它们之间巨大的区别就是市场型团队知道需求,技术型创业团队往往对业务理解的没那么深刻。所以要在Fintech做一个好的投资或创业,不但技术要强,还要能满足眼下和未来长期的需求,具备不断演化的能力,同时还得对客户的业务非常理解才能促进落地,否则就会变成技术型创业团队搞定制化、市场型创业团队搞项目,意义都不大,最好做综合型、既有技术又能又理解业务需求的标准化产品。
三,情怀和价值。
在现在整个经济的情况下,究竟是要做一个事业还是要挣钱?能否持续的运转下去,不仅要关注短期的项目落地,还要关注短期的业务需求是否能对接成功,产品是否可以标准化;同时还要关注业务和技术的长期发展,能够为原有的场景带来什么机会,能否开创出更加不同的新场景,变成另一个事业,所以应该是长短期并重的态度。
当然最后投与不投,还是每个投资机构要根据自身的团队,进行思考和决策。
未来三到五年,在NLP、知识图谱或者事理图谱的领域,仍然是一个发展的黄金期,结合行业的研究与应用的落地,应该会比较偏向以下几方面:
第一,将知识与常识引入目前用技术构建的数据学习系统中;
第二,在上下文建模、多轮语义理解中,更多的引入事理图谱的衍生场景应用;
第三,常见知识和常识之间的逻辑事理关系的延伸,也会被应用在未来的NLP或者知识图谱、事理图谱技术支撑当中。
钛资本研究院观察
事理图谱(Event Evolution Graph或Event Logic Graph)是近年来兴起的一个知识图谱新方向。事理图谱是在知识图谱的基础上,对知识和信息之间的逻辑进行深刻的刻画。事理图谱又与时间和空间相关,事件随时空不断演化的规模和模式,对人类社会来说具有重大价值。
事理图谱更能刻画人类行为逻辑,深层次揭示社会发展变化的规模。作为下一代知识图谱,或是知识图谱的重要分支,事理图谱对于强人工智能具有着重要的意义。
事理图谱是事理逻辑知识库,描述了事件之间的顺承、因果、条件和上下文等事理逻辑关系,事理图谱中的事件是具有一定程度抽象的泛化事件。
事理图谱的研究,主要从大规模无结构化文数据中自动抽取逻辑知识并组成一定结构的图形,用以描述事件之间的深化规模和模式。相对知识图谱,事理图谱更突出“意图”。特别是在搜索等任务中,知识图谱往往难以体现搜索者对搜索方向的意图,而无法实现精准搜索;而基于事理图谱的搜索,就能极大提高搜索的效率和准确性。
当前,随着人工智能和机器学习技术的发展,知识图谱及其应用已经进入商用规模化发展阶段,对事理图谱的研究和应用则呼之欲出。显然,事理图谱是对知识图谱的增强和改进。
当然,事理图谱的刻画更为不易,不仅要刻画事件本身还要找到事件之间的逻辑关系,以及随时间和空间演进的变化关系,如何让机器可以自动抽取出好而实用的事理图谱,是下一步研究和创业的重要方向,也值得创业投资机构密切关注。
【钛媒体作者介绍:钛资本是专注于企业级科技的投资银行和管理咨询服务平台。微信公号:tmtcapital】
根据《网络安全法》实名制要求,请绑定手机号后发表评论
哪里可以学习?