MIT科学家开发机器翻译新算法,专为破译消失的古语言

利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。

文丨学术头条

语言是文化的有机组成部分,也是文化的载体,世界文明的多样性在很大程度上表现为世界语言的多样性。而在 21 世纪的今天,语言学家们显然已经不满足于传统的、对已知语言的研究。相反,许多科学家开始利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。

近日,麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory 简称 CSAIL)的研究人员就开发出一种计算机算法,旨在帮助语言学家破译历史上已消失的语言。

无法“谷歌翻译”的古老语言

如今,世界上现存约有 7100 种语言。然而,古时存在的大多数语言都已不再使用,几近灭绝。数十种已灭绝语言也被认为是“未破译”的语言,也就是说,我们对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)了解不足,也无法理解其文本的意思。

图 | 世界语言分布地图 2018

而研究这些“未破译”的语言,不仅仅是出于学术上的好奇心。还是因为,不理解语言,我们就会错过与讲这些语言的人有关的一整套知识体系。不幸的是,大多数灭绝语言的相关记录极少,因此,科学家无法使用谷歌翻译之类的机器翻译工具或AI算法来对其进行解密。

而传统的研究方法是,找出目标语言的“相关”语言来作比较研究,例如同一语系或相似度较高的现存语言。然而,有些语言并没有对应的、已被深入研究过的“相关”语言,并且它们通常缺少诸如空格和标点符号之类的传统分隔符(想像一下,要解密出用这种语言写出的文字该有多么令人头秃)。

但是,CSAIL 的研究人员发明的新系统,已被证明能够自动破译消失的语言,且无需对其与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

语言破译:从文本到矢量的转变

此研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。其中一条原则是,一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。比如,母语中带有“ p”发音的单词可能会在其后代演变中变为“ b”,但是由于明显的发音差异,变为“ k”的可能性则较小。

通过整合这些原则和其他语言学约束,Barzilay 等人的新算法学习将语言发音嵌入多维向量空间,在该多维空间中,相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关特征,并将这些特征表达为计算约束(computational constraints)。

因此,它可以评估两种语言之间的相似度。实际上,当对已知语言进行测试时,它甚至可以准确地识别出该语言属于哪个语系(language families)。例如英语、德语同属于日耳曼语系。

不仅如此,算法生成的模型可以将古语言中的单词进行细分,并将其一一映射到“相关”语言中的对应单词上去。研究团队的最终目标是使该系统仅仅使用几千个单词,就能够破译数十年来语言学家们都无法理解的古语言。

机器翻译相关研究

实际上,这并非 MIT 首个使用计算机技术破译已消失语言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,开发出一个新的计算机算法,该算法在几个小时内就破解了古老的犹太语言乌加里特语(Ugaritic)。

除了帮助破译“神秘的”八种左右古老语言外,这项工作还可以扩大自动翻译系统可以处理的语言数量。例如目前,谷歌翻译支持 103 种语言,而破译系统中使用的技术可以帮助其为数千种语言构建词典。

去年,Barzilay 等人也发表过一篇论文,文中使用改进的计算机算法破译了线形文字 B(Linear B,出现在公元前 1400 年左右)。他们说,“我们的翻译脚本能够以 67.3%的准确率将线性文字 B 的同源词转换成对应的希腊语。据我们所知,该试验是自动解读线性文字 B 的第一次尝试。”

在未来的工作中,该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外,这种方法被称为“基于同源的破译方法”。

Barzilay 说:“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性 。”

参考资料:
https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021
https://news.mit.edu/2010/ugaritic-barzilay-0630
http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf
http://people.csail.mit.edu/bsnyder/papers/bsnyder_acl2010.pdf

本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
  • 给小编加鸡腿🍗
  • 爱了爱了😁
  • 挺有深度的,不错
  • 紧跟时事,赞一个👍🏻👍🏻
  • 真不错,收藏了
  • 写的很不错,关注了
  • 都没有那么简单
  • 这么厉害的吗
  • 学到了学到了
  • 商场如战场,竞争激烈啊
  • 行业发展都是有周期的
  • 企业的发展都不是一番风顺的
  • 说的好有道理😄
  • 内容值得人们反思
  • 数据还是很详细的
  • 内容很精彩,夸一夸
  • 又学到了很多知识
  • 内容很详细👍🏻
  • 小编辛苦了
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

12:32

美国3月核心CPI同比增长2.8%

12:31

美国3月CPI同比增长2.4%,预估为2.6%

12:31

美国上周首次申领失业救济人数为22.3万人

12:29

任鸿斌会见新加坡中华总商会会长高泉庆、美国通用电气医疗公司全球影像业务总裁兼首席执行官罗兰·罗特

12:28

浪潮信息:董事长提议回购2亿元-3亿元公司股份,浪潮集团拟增持1亿元-2亿元公司股份

12:28

两部门:收费公路新机制建设项目应确保经营收入应能够覆盖建设投资和运营成本

12:26

普拉达:拟以13.75亿美元收购范思哲

12:26

两部门:充分激发民营企业参与收费公路投资积极性

12:24

两部门:鼓励民营企业通过直接投资或者独资、控股、参股等方式积极参与收费公路新机制建设项目

12:23

长安汽车:2024年净利润同比下降35.37%,拟10派2.95元

12:23

两部门联合印发《收费公路政府和社会资本合作新机制操作指南》

12:14

科捷智能:截至4月10日累计回购5.1367%公司股份

12:09

防范和打击非法金融活动部际联席会议召开:要有序压降存量风险,全力破解处置难题

12:09

4月10日新闻联播速览27条

12:03

成都推动首发经济发展三年计划发布,2027年底落地首店6500家

11:55

2030年中国移动技术贡献将达2万亿美元

11:50

外交部召开驻外使节工作会议

11:48

廖岷主持东盟与中日韩财政和央行副手系列会议并举行多场双边会谈

11:48

国泰君安:已首次回购300.35万股A股股份

11:46

工信部公开征求对《民用无人驾驶航空器唯一产品识别码》强制国标(征求意见稿)的意见

25
20

扫描下载App