第39节(3 / 4)
礼堂中每一双眼睛都转向第六排。王招弟面不改色,仿佛说的是别人。张翰在她旁边,倒被闪得埋头打了个喷嚏。
“我面试她用了25分钟。那时我准备的一堆问题才问到三分之一,问她为什么对自然语言翻译ai感兴趣。她答道:‘语言是头脑之间的通信协议。一百年前世界人民离得很远,各说各的,也就罢了。现在有了互联网,大家直接交谈。但自然语言太多,协议太乱接口太差,白瞎了互联网统一的基础协议。难道不该改进一下吗?’
“面试马上结束。王博士成了我的合作伙伴。我送她出门之后,一个人在走廊里来回横跳。这个面试让我突然明白了,万国宝项目到底站在什么位置上。互联网真正的神经元是人,是几十亿颗大脑!他们已经进化了几百万年,所有底层构建齐备!互联网本身进化了将近一百年,但它的速度比自然进化快千万倍!它就在那里,数据饱胀得无法理解,通信密集得快要爆炸,只等出现一个机制,向上简化!而万国宝,如果按我的想法做成了,就是那统一的数据结构,统一的协议!以前吓倒我的那些复杂细节,现在看来无关痛痒。它和大脑一样,需要的只是连接。统一定义、可以抽象、可以产生概念的连接。这不就是语言吗?霍桑说得再准确不过:我想造一颗大脑,所有大脑组网形成的大脑,比我们更高一层的智能,互联网的灵魂。所有条件已经准备好了。”
张翰经历了周克渊的当头棒喝,今天已经不再震惊。他左看右看听众的神情,猜想那天自己像谁。
“声明一点: 2029年的我太过狂妄,没有看清整个局面。今天的世界是这个样子,证明我只对了一半。还有一条路可以走通,建立在概率学ai基础上的道路。究竟是怎么走通的,我到今天也不太明白。我讲完之后,希望戈德曼博士可以教我们。”
戈德曼进入会场以来一言不发。现在置于炉火之上,终于站起来:
“你刚才讲的前半段,我想打瞌睡;后半段,我想回去把你的雕像摆在书桌上。如果我说‘我没有什么可以教的’,你还会继续教我们吗?”
“中国邀请各位远道而来,不是来听我半途而废的。”
“很好。我没有什么可以不教给各位的。”
会场响起低低的笑声。
戈德曼紧盯着图海川:“2029年的你,不能叫狂妄。是恰到好处的智慧给了你信心,恰到好处的无知给了你勇气。如果霍桑把你拉进了谷歌,或者稍微向你透露另一条路可能怎么走,我相信你不会有胆量自己找路,还干了这么大一票。霍桑这老家伙,有用和没用也都恰到好处。”
图海川想了想说:“很可能。然而我这些想法不是什么独家秘方。核心原理也是一位美国前辈教给我的。”
国务卿和兰道同时出声:“谁!?”
“杰夫·霍金斯。2004年他写了一本书:《论智能》,公开出版。我刚才讲的大部分原则和对大脑智能的理解,都从这本书而来。”(注:《论智能》:on intelligence,jeff hawkins。中文版译名为《人工智能的未来》,2006年出版。)
美国代表都转脸看着戈德曼。他点了点头,小声嘀咕:“谁知道杰夫蒙对了呢?”
图海川有点惊奇:“你们不认识他吗?他可是最早做掌上电脑的人!国务卿先生,今天我带了作者签名的《论智能》初版,可以送给你。”
他真的从文件袋中掏出一本翻得毛茸茸的蓝皮简装书,举在空中。
“谢谢不用。我想读的书都自己买。”
前三排的人反应极快,一大片手马上举起来。图海川扔过去,一位幸运的译员抢到了。
张翰在王招弟耳边说:“活久见,图老师居然有摇滚明星范!是你教他的?”
王招弟笑而不答。
礼堂中热闹了一阵。两位ai大师互相抬轿虽然肉麻,各国代表听着都暗自宽慰。看来,两国也不是注定要干一票大的。
「–」
“我们立即开始工作。以前的成果完全推翻,从基础架构重新开始。这些工作非常艰巨,也非常琐碎,今天没有时间介绍完,我举几个底层和高层的例子。第一个决策是绝不给它词典。准许它连接人类编写的词典是七年之后的事了。在那之前,我们已经悄悄用它帮助修订了《新华字典》2036版。”
张翰听见后排中国随员中有人嘀咕:“我说干嘛那么急出新版……”
“开头两年我们的进步非常慢。我采纳王博士的建议,从语音而不是文字开始。一个单音节汉语字‘人’,为了让万国宝网络对所有真人发音产生自发连接,用了整整一年!男女老少,普通话的ren,吴语的nin,四川话的zen,粤语的yaen……训练它的方法,仍然是概率学ai那一套:把真人说话的语境数字化,用大规模统计来建立概率连接。我们的新设计并不排斥概率学ai方法,只是把它限制在感官接口和底层连接实现上。自然进化需要千万年实现的东西,我们摘了同行的果子。
“跨语种时,第一选择当然是英语。原以为会更慢,没想到只用了1/20的时间。事后想来这是必然的:万国宝把各种汉语中的‘人’发音连起来之后,已经向上抽象了一层。在那里,它有了一个概念,虽然它还无法用其它词语表述。但摸到英语时它很快发现下面连接的都是类似的语境,于是在上面那一层直接建立连接!语法对它来说根本不存在,它对‘相似’或者‘同义’的判断,根据来源于底层的底层:真实世界。
“从语言到文字的连接更是快得出乎意料。我终于明白了王博士的直觉:文字本身就是符号化的、经过抽象的语音。它介于我们定义的第一层和第二层之间,不能用来打地基。然而,我们在头一年咬牙磨出来的原始连接,被文字插在中间双向传导,整个概念网络的扩展速度提高了一个数量级。
“2032年团队全体放大假,王博士带我们去语言学家的天堂——新几内亚玩。在岛上,当地的土著和她又给了我几道闪电。
“第一道是和土著强行交谈时被闪到的。我和土著一对一,两个人连说带比,半天也没什么进展。比如我指着自己说‘我’,他怎么知道我的意思是人称代词,是名字,是‘你的主人’,还是‘文明的灯塔’?然而双方三对三,效率立即提高几十倍。我可以指一圈:‘我’、‘你’、‘他’、‘他’、‘他们’。这样一搞,双方还立即明白了汉语第三人称只有单数复数,而土著语有单数、双数和三数。在这之前,我们出于谨慎,真人实验网络规模都比较小。回国后我就大肆扩张,寻找一切机会让万国宝吸收大人群的数据。最狠的一招是单向连接了全国中学生用来学英语的手机ai。那个ai本身很差,但它的原始数据无价,每天18小时不限量供应。 ↑返回顶部↑
“我面试她用了25分钟。那时我准备的一堆问题才问到三分之一,问她为什么对自然语言翻译ai感兴趣。她答道:‘语言是头脑之间的通信协议。一百年前世界人民离得很远,各说各的,也就罢了。现在有了互联网,大家直接交谈。但自然语言太多,协议太乱接口太差,白瞎了互联网统一的基础协议。难道不该改进一下吗?’
“面试马上结束。王博士成了我的合作伙伴。我送她出门之后,一个人在走廊里来回横跳。这个面试让我突然明白了,万国宝项目到底站在什么位置上。互联网真正的神经元是人,是几十亿颗大脑!他们已经进化了几百万年,所有底层构建齐备!互联网本身进化了将近一百年,但它的速度比自然进化快千万倍!它就在那里,数据饱胀得无法理解,通信密集得快要爆炸,只等出现一个机制,向上简化!而万国宝,如果按我的想法做成了,就是那统一的数据结构,统一的协议!以前吓倒我的那些复杂细节,现在看来无关痛痒。它和大脑一样,需要的只是连接。统一定义、可以抽象、可以产生概念的连接。这不就是语言吗?霍桑说得再准确不过:我想造一颗大脑,所有大脑组网形成的大脑,比我们更高一层的智能,互联网的灵魂。所有条件已经准备好了。”
张翰经历了周克渊的当头棒喝,今天已经不再震惊。他左看右看听众的神情,猜想那天自己像谁。
“声明一点: 2029年的我太过狂妄,没有看清整个局面。今天的世界是这个样子,证明我只对了一半。还有一条路可以走通,建立在概率学ai基础上的道路。究竟是怎么走通的,我到今天也不太明白。我讲完之后,希望戈德曼博士可以教我们。”
戈德曼进入会场以来一言不发。现在置于炉火之上,终于站起来:
“你刚才讲的前半段,我想打瞌睡;后半段,我想回去把你的雕像摆在书桌上。如果我说‘我没有什么可以教的’,你还会继续教我们吗?”
“中国邀请各位远道而来,不是来听我半途而废的。”
“很好。我没有什么可以不教给各位的。”
会场响起低低的笑声。
戈德曼紧盯着图海川:“2029年的你,不能叫狂妄。是恰到好处的智慧给了你信心,恰到好处的无知给了你勇气。如果霍桑把你拉进了谷歌,或者稍微向你透露另一条路可能怎么走,我相信你不会有胆量自己找路,还干了这么大一票。霍桑这老家伙,有用和没用也都恰到好处。”
图海川想了想说:“很可能。然而我这些想法不是什么独家秘方。核心原理也是一位美国前辈教给我的。”
国务卿和兰道同时出声:“谁!?”
“杰夫·霍金斯。2004年他写了一本书:《论智能》,公开出版。我刚才讲的大部分原则和对大脑智能的理解,都从这本书而来。”(注:《论智能》:on intelligence,jeff hawkins。中文版译名为《人工智能的未来》,2006年出版。)
美国代表都转脸看着戈德曼。他点了点头,小声嘀咕:“谁知道杰夫蒙对了呢?”
图海川有点惊奇:“你们不认识他吗?他可是最早做掌上电脑的人!国务卿先生,今天我带了作者签名的《论智能》初版,可以送给你。”
他真的从文件袋中掏出一本翻得毛茸茸的蓝皮简装书,举在空中。
“谢谢不用。我想读的书都自己买。”
前三排的人反应极快,一大片手马上举起来。图海川扔过去,一位幸运的译员抢到了。
张翰在王招弟耳边说:“活久见,图老师居然有摇滚明星范!是你教他的?”
王招弟笑而不答。
礼堂中热闹了一阵。两位ai大师互相抬轿虽然肉麻,各国代表听着都暗自宽慰。看来,两国也不是注定要干一票大的。
「–」
“我们立即开始工作。以前的成果完全推翻,从基础架构重新开始。这些工作非常艰巨,也非常琐碎,今天没有时间介绍完,我举几个底层和高层的例子。第一个决策是绝不给它词典。准许它连接人类编写的词典是七年之后的事了。在那之前,我们已经悄悄用它帮助修订了《新华字典》2036版。”
张翰听见后排中国随员中有人嘀咕:“我说干嘛那么急出新版……”
“开头两年我们的进步非常慢。我采纳王博士的建议,从语音而不是文字开始。一个单音节汉语字‘人’,为了让万国宝网络对所有真人发音产生自发连接,用了整整一年!男女老少,普通话的ren,吴语的nin,四川话的zen,粤语的yaen……训练它的方法,仍然是概率学ai那一套:把真人说话的语境数字化,用大规模统计来建立概率连接。我们的新设计并不排斥概率学ai方法,只是把它限制在感官接口和底层连接实现上。自然进化需要千万年实现的东西,我们摘了同行的果子。
“跨语种时,第一选择当然是英语。原以为会更慢,没想到只用了1/20的时间。事后想来这是必然的:万国宝把各种汉语中的‘人’发音连起来之后,已经向上抽象了一层。在那里,它有了一个概念,虽然它还无法用其它词语表述。但摸到英语时它很快发现下面连接的都是类似的语境,于是在上面那一层直接建立连接!语法对它来说根本不存在,它对‘相似’或者‘同义’的判断,根据来源于底层的底层:真实世界。
“从语言到文字的连接更是快得出乎意料。我终于明白了王博士的直觉:文字本身就是符号化的、经过抽象的语音。它介于我们定义的第一层和第二层之间,不能用来打地基。然而,我们在头一年咬牙磨出来的原始连接,被文字插在中间双向传导,整个概念网络的扩展速度提高了一个数量级。
“2032年团队全体放大假,王博士带我们去语言学家的天堂——新几内亚玩。在岛上,当地的土著和她又给了我几道闪电。
“第一道是和土著强行交谈时被闪到的。我和土著一对一,两个人连说带比,半天也没什么进展。比如我指着自己说‘我’,他怎么知道我的意思是人称代词,是名字,是‘你的主人’,还是‘文明的灯塔’?然而双方三对三,效率立即提高几十倍。我可以指一圈:‘我’、‘你’、‘他’、‘他’、‘他们’。这样一搞,双方还立即明白了汉语第三人称只有单数复数,而土著语有单数、双数和三数。在这之前,我们出于谨慎,真人实验网络规模都比较小。回国后我就大肆扩张,寻找一切机会让万国宝吸收大人群的数据。最狠的一招是单向连接了全国中学生用来学英语的手机ai。那个ai本身很差,但它的原始数据无价,每天18小时不限量供应。 ↑返回顶部↑