MIT科学家开发机器翻译新算法,旨在破译消失的古代语言
语言不仅是文化的有机组成部分,也是文化的载体。在很大程度上,世界文明的多样性体现在世界语言的多样性上。在 21 世纪,语言学家显然不满意对传统和已知语言的研究。相反,许多科学家已经开始利用计算机技术探索已经消失的古老语言,这几乎是对这个谜的答案。
最近,ComputerScienceandArtificialIntelligenceLaboratory 计算机科学和人工智能实验室(CSAIL) 的研究人员开发了一种计算机算法,旨在帮助语言学家破译历史上消失的语言。
谷歌无法翻译的古老语言
今天,世界上大约有 7100 种语言。然而,古代的大多数语言已经不再使用,几乎已经灭绝。几十种已经灭绝的语言也被认为是 "未破译的" 语言,也就是说,我们对它们的语法(语法)、词汇(词汇)或句法(句法)还不太了解,我们也无法理解它们的文本的含义。
对这些 "未破译" 的语言的研究不仅仅是出于学术上的好奇心。或者因为如果我们不懂语言,我们就会错过一套关于说这些语言的人的知识系统。不幸的是,大多数已经灭绝的语言都没有多少记录,所以科学家无法用谷歌翻译或人工智能算法等机器翻译工具来解密这些语言。
传统的研究方法是找出目标语言的 "相关" 语言来进行比较研究,例如同一语言家族或现有的具有高度相似性的语言。然而,有些语言没有深入研究的 "相关" 语言,而且往往缺乏传统的分隔字符,如空格和标点符号(想象一下用该语言编写的文本解密会有多秃)。
然而,CSAIL 研究人员发明的新系统可以自动解码消失的语言,而不必深入理解它们与其他语言的关系。他们还表明,该系统本身可以确定语言之间的关系,并可以用来证实最近的一项学术研究,该研究表明,伊比利亚语实际上与巴斯克语无关。
语言破译:文本向矢量的转换
这项由麻省理工学院(MIT) 教授雷吉纳·巴兹莱(ReginaBarzilay) 领导的研究基于历史语言学(历史语言学)的几个原则。其中一个原则是,一种特定的语言很少直接增加或删除整个音节,但可能会出现一些类似的发音替代。例如,母语中发音为 "p" 的单词在其后代的进化过程中可能变成 "b",但由于明显的发音差异,变得 "k" 的可能性较小。
barzilay 的新算法将这些原则和其他语言约束结合起来,将语言发音嵌入到多维向量空间中,对应向量之间的距离反映了不同发音的差异。这种设计使他们能够捕捉与语言变化相关的特征,并将其表达为计算约束。
因此,它可以评估两种语言之间的相似性。事实上,当测试已知的语言时,它甚至可以准确地确定该语言属于哪种语言家族。例如,英语和德语属于日耳曼语系。
此外,该算法生成的模型可以对古语言中的单词进行细分,并将它们逐一映射到“相关”语言中的相应单词。该团队的最终目标是使该系统能够破译语言学家几十年来一直无法理解的古代语言,只使用几千个单词。
事实上,这并不是麻省理工学院第一次利用计算机技术破译遗失语言的研究。
早在 2010 年,巴兹莱和其他合作者就开发了新的计算机算法,在几个小时内破解了古犹太语言乌加里语。
除了帮助破译“神秘”的八种左右的古代语言,这项工作还可以扩大自动翻译系统可以处理的语言数量。例如,目前 googletranslate 支持 103 种语言,该系统中使用的技术可以帮助它为数千种语言建立词典。
去年,barzilay 等人。还发表了一篇论文,其中使用改进的计算机算法来破译线性 B。他们说:“我们的翻译脚本能够将线性文本 B 的同源词转换成相应的希腊语,准确率为 67.3%。据我们所知,这项实验是第一次尝试自动解释线性文本 B
在未来的工作中,研究小组希望超越将已知语言中的文本与相关单词关联起来的范围,这种方法被称为“基于同源性的方法”破译。”。
巴兹莱说:“例如,我们可以确定文本中涉及的所有人或地方,然后我们可以根据已知的历史证据进一步调查。”。这些实体识别方法以其高精度被广泛应用于各种文本处理应用中