EugeneGoostman程式真的通过了图灵测试吗?

EugeneGoostman程式真的通过了图灵测试吗?
前言

2014 年 6 月 9 日,我看到 inside 网站中有人发布了一个讯息 「电脑首度通过图灵测试 」。 我的直觉反应是,这件事情势必有假,于是一路追了下去。

Inside 的讯息其实是转贴自 36 氪这个来自中国的网站, 36 氪网站的文章标是 「计算机首次通过图灵测试」。

不仔细看文章的人,很可能会被误导,认为电脑已经可以成功得欺骗人类,让人以为他是一个真人,而且比率达到和真人一样的水準,也就是「人类已经无法正确区分文字交谈的对象到底是电脑还是人类了」。

但是、这样的想法是错的,文章中所说的 Eugene Goostman 这个软体其实并没有达到「完全能欺骗人类」的水準,因为他们所说的图灵测试,和我所认知的图灵测试,根本就是不同的东西。

图灵测试是甚幺?

36 氪文章中所说的 「图灵测试」 ,其实有连结到百度百科。百度百科裏对图灵测试的描述如下:

但是、我所认知的图灵测试,并不是採用 30% 误判率为基準的,而是应该达到「和人类被误判为电脑」一样的水準。换句话说,假如程式伪装的和真人一样好的话,那幺应该要符合下列的表格要求。

EugeneGoostman程式真的通过了图灵测试吗?
测试单位的英文公告

36 氪的 「计算机首次通过图灵测试」 一文中指出了讯息来源为「英国雷丁大学的新闻稿」,连结如下:

该新闻稿提到 Eugene Goostman 这个程式通过图灵测试的语句如下:

但新闻稿的后面有写出测试方法的描述:

  1. Simultaneous tests as specified by Alan Turing
  2. Each judge was involved in five parallel tests -- so 10 conversations
  3. 30 judges took part
  4. In total 300 conversations
  5. In each five minutes a judge was communicating with both a human and a machine
  6. Each of the five machines took part in 30 tests
  7. To ensure accuracy of results, Test was independently adjudicated by Professor John
  8. Barnden, University of Birmingham, formerly head of British AI Society

我对这个测试方法的解读如下:

  1. 图灵测试:电脑程式是否能成功的透过文字交谈欺骗人类,伪装自己是个人。
  2. 每个「判断者」都会分别判断五组「人 + 电脑」的配对,也就是总共进行 10 次的对话。
  3. 总共有 30 位判断者参与。
  4. 总共有 30*10=300 场的交谈。
  5. 在五分钟内,「判断者」会与一组「人和机器」分别交谈。
  6. 五组「电脑程式」都会与 30 位「判断者」谈过一次。
  7. 为了确认「判断者」判断结果为正确或错误, John Barnden 教授会监控并确认结果。
以前的程式表现如何?

事实上、能够成功欺骗人类,让某些人认为对方是真人的交谈程式,在人工智慧的历史上很早就出现过了。

远在 1966 年时,Joseph Weizenbaum 就曾经创造出一个称为 ELIZA 的程式,该程式採用了非常简单的字串比对方法,结果竟然让不少交谈者认为 ELIZA 是个真人,以下是维基百科对 Eliza 程式的描述网址。

在 2013 年 8 月号的程式人杂誌当中,笔者也在文章中展示了一个自己写的「中文版 Eliza 聊天程式」,有兴趣的朋友也可以阅读该文章顺便了解这种程式是怎幺做的。

另外、在 2011 年时有一个称为 Cleverbot 的程式 曾经创造过成功欺骗 60% 判断者的纪录,这个纪录比这次比赛第一名的 Eugene Goostman 程式还要高。因此我们真的很难用「电脑首度通过图灵测试」这样的语句来描述这次比赛的结果,甚至这次比赛到底是否有创了什幺记录都是很难确定的。

所以、我真的觉得这样的讯息是过于耸动了,因此特别写了这篇文章来提醒大家,避免很多人会被这些讯息误导。

我的感想

我认为「英国雷丁大学发布的新闻稿」用词有欠妥当,主要是因为下列语句实在是太过强烈:

虽然新闻稿后面有交代 Eugene Goostman 程式成功的欺骗过 33% 的判断者,但是没有看完全文的人还是很容易被误导的。

而 36 氪网站直接把 「计算机首次通过图灵测试」 拿来当标题,则是进一步的误导了大家, 虽然 36 氪有超连结指向 百度的图灵测试定义 ,但是这个定义显然与一般人的认知不同,应该要强调一下才对,不应该企图用耸动性的标题吸引目光。

最后、 inside 的转载「电脑首度通过图灵测试 」这篇,虽然有指出来源的 36 氪网站文章,不过我想转贴的人或许没有仔细想过到底文章中的「通过图灵测试」到底是甚幺意义,也没想过这样可能会误导读者,造成错误科学讯息的传播问题。

从这个案例中,我们可以看到在网路讯息发达的今天,要能够不被误导,恐怕必须要有很强的判断力与追根究柢的精神,但是在这个讯息多如牛毛的世界中,错误与耸动的讯息往往传播的特别快,这恐怕是网路世界亟待解决的问题之一啊!

最后、我上 g0v 的新闻小帮手 去检举了这个新闻,希望能让误导的情况稍微降低一下,检举网址如下:

参考文献