视频消费的时代,内容平台们每年要更新数以万计的剧集,花费动辄几亿元的版权投入。而版权剧的引进早已经不是“字幕组”这种传统方式能够匹配的了,字幕组“人肉翻译”的传奇时代,正随着机器翻译的成熟而被终结。
从2013年开始,一项基于多语种语音识别和机器翻译的视频翻译软件——字幕通(YeeCaption)拯救了那些花下重金采购版权的视频网站,将繁琐的视频字幕翻译制作工作最大程度的便捷化,成功实现从切分时间轴、字幕(语音)识别,到字幕翻译、字幕制作及成品导出的一站式操作。
机器翻译技术,不仅改变了国人追剧的方式,也改变了互联网视频巨头们的技术流程。
这款神奇产品字幕通的母公司中译语通科技(北京)有限公司(以下简称“中译语通”),一直身处行业幕后,为行业提供专业的语言服务。据钛媒体了解,目前中国的互联网用户消费的海外版权剧,有超过80%的字幕翻译是通过中译语通的工具完成的。
中译语通在技术联合研发方面,同国内外的高校和研究机构建立广泛而深入的战略合作关系,与中国人民大学新闻学院、清华大学新闻学院分别建立新闻大数据联合实验室,展开就开放新闻数据的各种算法研究。同时,中译语通是语言大数据联盟发起单位之一。目前国内包括北京外国语大学、上海外国语大学、北京语言大学、澳门理工学院、香港中文大学等,和海外维也纳大学、纽约州立大学、日内瓦大学、加拿大约克大学等在内的150多所大学都是联盟的成员单位。中译语通与联盟成员在大数据分析、机器翻译和语音识别等领域建立联合实验室,以加速推动技术的研发与成果转化。
“语言不应该是人们沟通或获取信息的障碍”,这成了中译语通积极投入机器翻译技术研发的初衷。
今年6月,中译语通 CEO 于洋向钛媒体透露,自2013年至2016年三年间,中译语通在机器翻译和大数据研发方面投入很大,在机器翻译研发累计投入已经超过2亿元,在大数据分析方面每年投入研发资金超过1亿元。2017年,他们加强并扩大了对跨语言大数据的技术深挖,不仅全面提速机器翻译在垂直领域和语种数量的语料训练,而且在数据挖掘、各类算法的高质量数据分析和人工智能应用等方面进一步加大研发投入。
2016年,中译语通先后完成B轮2.5亿元融资和B+轮1.5亿融资,半年内连续获得的两轮融资(合计4亿元人民币)让这家公司备受关注。
深入应用场景的大数据服务
去年12月,在北京举行的译见大数据峰会上,中译语通正式对外宣布了B+轮融资,并发布了译见大数据分析平台的2.0版本。至此,一直期望摘掉“翻译公司”标签的中译语通,已经形成了成熟的语言科技生态“译云”和大数据分析“译见”两大平台产品矩阵,跨入了大数据与人工智能公司行列。如今,中译语通名入2016年中国大数据准独角兽企业榜单,并且从中国本土人工智能公司的融资额度排名来看,中译语通已跻身第四位。
中译语通从2015年开始切入大数据分析领域,正式提出了跨语言大数据概念,并后续推出了跨语言的应用产品译见大数据分析平台,面向多种垂直行业、全球企业机构和政府平台的大数据技术,让中译语通找到了商业模式的核心。
和国内众多大数据公司一样,译见大数据平台的应用场景主要在于为商业机构提供分析决策、市场研究、信息分析、精准营销及公共趋势预测等。用户在译见的数据平台上可以就任一主题或多个主题进行分析,例如“空气污染”、 “经济增长”、“城镇化”等关键词,系统能够绘制出指定时间范围内三者之间的内在联系和趋势预测,并通过可视化效果清晰地展示出来。
“现在我们看到的每一个数据源,我们有超过200万个独立网站数据源,超过65种语言,其实都是经过人工精确分类的,每个数据源进行单独的技术配置,获取的数据进行智能地结构化后,进行大数据分析。庞大的非结构化数据的知识图谱就是这样日复一日的建构起来的。”于洋告诉钛媒体。
人工智能+大数据的服务,通过各大合作伙伴也深入到了不同的垂直领域。中译语通承担了中国银联全球11个语言7x24小时的全球多语言呼叫中心,每个月超过几十万分钟的呼叫时长;为陕西省建设“一带一路”跨语言大数据分析平台;在2016年的云栖大会上成为阿里云的战略合作伙伴之一; 2017年初的德国汉诺威工业博览会上,中译语通还和海尔达成战略合作,一同助力工业企业的全球竞赛。
截止到2017年,中译语通的数据挖掘能力已经覆盖全球200多个国家,65种语言,超过200多万个独立数据源,同时拥有EB级全球互联网开放文本与社交数据和千亿级的知识图谱。
中译语通在数据服务上的差异化,就是其提出的“跨语言大数据”概念,中译语通机器翻译功能已实现全球32个语种,992个语言方向的机器翻译。“如果去除了数据的语言标签,把搜索出来的英语、日语、法语、葡萄牙语等所有语言的大数据汇集起来,定性定量地分析,得到的结果的价值将远远超过我们之前所理解的大数据的价值。”于洋说。
大数据能力,直接决定了这家公司在机器翻译领域的竞争力。于洋告诉钛媒体,“机器翻译是人工智能和大数据中最为复杂的一项技术,大家把它称为‘皇冠上的明珠’。从最早研发机器翻译到后来快速的理解自然语言处理技术、机器学习的应用,才得以延展出今天的跨语言大数据搜索与分析,这也是中译语通跨语言大数据的‘基石’。”
惠及全球的语言大数据支持
“一带一路”战略的落地中,中译语通也是积极参与者之一。
2017年6月,译见大数据分析平台再次走向海外,基于丰富的海外资源,这家公司很早就启动了国际化。在俄罗斯及东欧独联体最大的科技创新盛会STARTUP VILLAGE上,中译语通分别与基金组织斯科尔科沃基金会、综合排名第一的莫斯科国立大学、俄罗斯知名移动互联网公司i-Free达成了战略合作。
中译语通公司副总裁张晓丹在大会上发表了主旨演讲,她向钛媒体介绍,未来中译语通将在莫斯科国立大学构建以俄语为中心的跨语言大数据平台,俄罗斯在内的东欧20多个国家提供跨语言大数据智库服务;同时为i-Free人工智能平台的多领域场景化应用提供技术支持。
中国国家信息中心出具的一份《“一带一路”大数据报告(2016)》显示,中国与一带一路沿线64个国家之间国别合作情况中,中俄“国别合作指数”位于首位,这也是中译语通将2017年的海外拓展重点选在俄罗斯的一大背景。
为了让跨语言大数据能惠及全球,中译语通很早就向行业开放了自身的机器翻译及大数据技术,借此不断进行语料的训练和积累,同时进行技术升级,为获取更多的跨语言大数据提供了巨大能量和空间。
Powered by GTCOM
中译语通的两大平台产品矩阵的背后,是两百人的研发团队。过去一年,中译语通一直在致力于完成大数据产品的标准化。于洋向钛媒体透露,今年7月底公司将再次推出重要产品,包括四个标准化的大数据产品、一个多语言搜索平台及算法平台。
于洋未向钛媒体透露目前拥有的核心算法团队,但他表示,“算法不仅仅需要顶尖的技术大咖,更需要的是我们对数据的想象力”。
“如果说大数据产业的1.0时代,竞争者们处在抓取和采集数据源、追求数据规模的时代;那么,2.0时代属于‘精准标签化’。3.0时代大数据应用更加智能,也就是说,完成结构化的数据知识图谱将落地到不同的垂直领域,为我们带来超越想象的趋势研判价值。”于洋说。
2017年中译语通将加快国际化步伐,加速大数据产品的迭代,扩展金融、医疗及资本市场等垂直领域的服务应用。“中译语通要成为各个垂直行业的‘专业大数据引擎’”于洋强调说。
互联网发展到今天的阶段,人类已经进入了一个完全由数据驱动的世界——powered by data,Powered by AI,而中译语通想成为其中的驱动力量之一。如果说上一个十年,科技创新是为了“改变语言沟通之路”,如今,这家公司正在转向一个全新的使命:开创一个 Powered by GTCOM 的新十年。(本文首发钛媒体)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
机器翻译这件事,其实无论谷歌还是国内的本土公司也还停留在探索阶段,大数据的积累,最终肯定会帮助到机器翻译的进阶,等待AI爆发的那一天......所以,翻译硕士这个专业,未来还会存在嘛?很难说诶。当年学语言的同学,目前只有一个人在做翻译
很不错啊
中译的字幕通,海外影视剧80%都是用他们的工具完成的,真是厉害
我说现在好多电影字幕和百度翻译一个水准……
用过咪咕灵犀的语音翻译,对日常用户这些识别真的是准,还支持五国语音,蛮有趣的。