第7章(1 / 3)

加入书签 本章报错

微软的梦工场强烈推荐:

1997年,在香港回归的那个季节,我开启了自己的大学生活。跟大多数大学生一样,那ว时的我并不了解微软公司。微软这两ä个字传递给我的信息仅停留在世界富盖茨先生和9๗indo9s操作系统而已๐。

199๗7年,在香港回归的那个季节,我开启了自己的大学生活。跟大多数大学生一样,那时的我并不了解微软公司。微软这两个字传递给我的信息仅停留แ在世界富盖茨先生和9indo9๗s操作系统而已。

迪恩?思劳森,出生于纽约,在加利福尼亚长大。20่06年8月从总部来到了微软亚洲研究院工作,担任创น新工程中心总经理,负责技术成果的转化和孵化。在微软工作的13๑年中,他参与过教育、媒体和生产类产品和服务的开,以及先进技术从研究团队向产品团队的转移。他一直充满热情地把有才华的人和绝妙的点子聚集起来,创造出顾客所想所需的软件和服务。在进微软之前,他在一家开教学软件的小型公司做咨询顾问,同时也参与过好莱坞的电影和电视业务。13๑岁时在洛杉矶城市学院第一次学习了软件编程,之后在加利福尼亚大学洛杉矶分校学习实验心理学,在杨伯翰大学学习组织行为学。他喜欢所有的户外活动。

迪恩?思劳森,出生于纽约,在加利福尼亚长大。2๐006年8月从总部来到了微软亚洲研究院工ื作,担任创新า工程中心总经理,负责技术成果的转化和孵化。在微软工作的13年中,他参与过教育、媒体和生产类产品和服务的开,以及先进技术从研究团队向产品团队的转移。他一直充满热情地把有才华的人和绝妙的点子聚集起来,创造出顾客所想所需的软件和服务。在进微软之前๩,他在一家开教学软件的小型公司做咨询顾问,同时也๣参与过好莱坞的电影和电视业务。13岁时在洛杉矶城市学院第一次学习了软件编程,之后在加利福尼亚大学洛杉矶分校学习实验心理学,在杨伯翰大学学习组织行为学。他喜欢所有的户外活动。

不仅如此,微软亚洲研究院及其主ว要创立者的影响已经扩展到了整个公司。现在,微软亚洲研究院的两位前院长——沈向洋博士和张亚勤博士,正在微软非常重要的部门——微软公司全球搜索ิ产品开部ຖ和微软中ณ国——担任着掌门人的角色。

不仅如此,微软亚洲研究院及其主ว要创立者的影响已经扩展到了整个公司。现在,微软亚洲研究院的两位前院长——沈向洋博士和张亚勤博士,正在微软非常重要的部ຖ门——微软公司全球搜索产品开部和微软中国——担任着掌门人的角色。

评论一:

“微软研究院的这套对联机真的是很好很强大,那ว天是在大旗网外链的一个ฐ论坛上看到的,帖子很热,人气很旺,从上到下认真的看完每个对联之后,对微软的这套对联系统那ว真是佩服的五体投地。

咱们可以先看看饱受好评的几个ฐ对联:上联:毛林周刘华邓江胡,下联:秦汉晋隋唐宋元清,横批:震古烁今;上联:物价并不高,下联:市场已经远,横批:对酒当歌。

第74节:微软对联背后的故事2

评论二:

我也从来没有在家门贴春联的习惯,但是老爸喜爱书法艺术,也略有小成,用着这套好玩的微软对联机,心想:赶着春节将至,不如编个春联让老爸写写,也蛮热闹喜庆的,即成上联:木土杜家喜迎吉祥๷鼠,对联机略做运算即成下联:车干轩户春接富贵人,横批:骏业顺风。”

我常常在思考,这个ฐ微软对联系统究竟有什么值得总结的地方แ。看到微软对联,再看到这么多网上的评论,我的脑แ海ร里就总象在放电影一样,把这个历程里出现的人物和有趣的事情一幕一幕地闪现出来。值此微软研究院十周年之际,我想确实应该趁现在记忆还清晰的时候,把这段历史好好地总结一下,以便让十年、二十年之后的人们还能够看到曾经生的有趣的故事。

誓与李敖比高低

微软对联这个项目,跟前任院长沈向洋大有渊源。此事说来有点话长了。

2004年底的时候,沈向洋把我叫去,说搞个自动对联吧。所谓自动对联,就是说人出上联,由计算机对出下联。他之前๩跟几个人都聊过这个设想,所有的人都告诉他别想了,不可能做出来。他失望,不甘心,反复提起来。“反正你是院长,你说做就做吧。”大家说。有点像傣族的泼水节,泼的都是冷水。

他跟我说你能ม做也得做,不能做也得做。我说我肯定做,而且肯定能ม做出来。不过,要允许下联有多个候选,还要允许人机交互。另外,我需要时间。我当时可说是穷困潦倒,自然语言组不足10่人,有两名骨干即将转到微软别的部ຖ门去。还有几个项目同时在做技术转移,包括搜索引擎的拼写检查。大家还要赶写很多文章。我就从清华大学中文系招了一位同学,他的名字是马艳军,听上去像一个女孩的名字,人也是彬彬有礼的。

我设计了一个简单的模型,把对联的生成过程看作是一个翻译的过程。给定一个上联,根据字的对应和词的对应,生成很多选字和候选词,得到一个从左到右相互关联的词图,然后根据一个动态规划算法,求一个最好的下联出来。一个好的下联其评价标准也很简单,第一就是它跟上联的对应程度,一般用词和词的对应概率来代表,第二就是生成对联的语言模型,就是衡量它像不像一个对联。马艳军在我的指导下,在两个多月的时间里,根据这个思路,就做了一个简单的对联生成系统出来。我于是向沈向洋报告进展,这也是沈向洋第一次审核这个项目。

在他办公室里,我给他看了这个简单的系统输出的几个结果。他看过之后,很惊讶地说,看来我们有戏呀,继续努力吧!马艳军三个ฐ月之后,导师要求他回去,我只好去找语音组帮忙新的学生。我曾经在语音组干过半年的经理,有点人缘。周健来很慷慨地介绍了吴法洲同学,他是清华软件学院的研究生,曾经帮助健来做了手机上的输入法。吴法洲同学来了之后不久ื,我又请我的实习生蒋龙同学加入。后来沈向洋让他在北航的预ไ定将来要读他的博士的两位实验学院的大四同学加入这个研究小组。女孩子叫陶李天,男孩子叫苏昊。我当时又请了北京大学中ณ文系的两位同学整理从网络上挖掘的对联数据以及生成的对联词典。

后来是每隔三个月,沈向洋就会安排一次评审。每一次都鼓励说,大有进步。每一次都强调“要多挖数据呀,没有数据不行啊”。为ฦ了加强数据挖掘,他特别请王坚派人帮助加强数据挖掘。王坚就派了陈伟柱来,我就请伟柱帮助从网络上挖掘更多的对联数据。伟柱果真了不起,在两个月的时间里,很快挖掘了大批的对联数据。有了更多的数据,系统的性能得到了大幅度的提升。然后大家就讨论能不能把横批做出来。蒋龙同学很聪明,在一次开会的时候提出了一个方案——通过语义แ距离计算来和已有的上联、下联的句子最佳匹配的横批。苏昊根据这个ฐ方案实现了横批模块。我们于是就盼望着下一次给沈向洋做汇报的时候给他一个惊喜。当时的院长助理李世鹏安排了时间。在五楼的一个ฐ会议室里面,我给沈向洋和李世鹏演示了最新的对联系统。沈向洋出了一个上联:“李敖对联强”,电脑沉思了一毫秒,对出来“鲁๥迅绝句多”。沈向洋说:“不错,那ว么横批呢”。这时候我很忐忑,鬼才知道会对出来个爷爷还是奶奶。瞬间结果出来了,系统对出来的横批是“语妙天下”。沈向洋一拍桌子,说“绝了!”。

第75节:微软对联背后的故事3

那个ฐ时候,沈向洋满脑子都是要找李敖比一比。我一直不敢。他说不要怕,输了就输了,反正是电脑,也没有什么丢脸的。如果要是赢了,我们就赚大了。我说要是限定时间,比如1้秒钟็之ใ内,我们准赢。要是不限定时间,比如任意由李敖想,那ว我们准输。当时,沈向洋甚至设想了比赛过程:请几个ฐ评委出题,让计算机和李敖比一比;搞一个图灵测试,把电脑的结果和人的结果,让用户评价。如果用户评价电脑แ结果好的次数比较多,则电脑แ就算赢了。那一年,沈向洋和洪小文、金俊等人到台湾访问的时候,特意跟李敖一起吃饭,席间提起此事。李敖说,“我才不比,赢了没有什么เ了不起,要是输了我一世的英名就完了。”李敖的聪明可见一斑。这件事也就只好挂起。

西湖边上“秀”对联

我们的对联非常荣幸地在三次二十一世纪计算大会上由我进行了演示。第一次2005๓年在杭州ะ,第二次2006年在清华大学,第三次2๐0่07年在南京。据我所知,在所有的二十一世纪计算大会上,微软对联系统是唯一一个三次演示ิ的系统。确实令人骄傲。微软对联还被认为是基于数据和基于实施deploymentdrivenre色arch的研究战略的经典。我这里再给大家讲一讲在演示时生的故事。

第一次是2005๓年,在杭州大会堂。我们住在西湖苏堤春晓旁边的香格里拉饭店。沈向洋要求我演示微软对联。我心里非常焦急,因为当时的系统非常脆弱,基本上还不敢随便让别ี人试,只能演示自己试验过的例子。可是到了杭州,一定要有几个跟杭州有关的例子。我吃过晚饭,就心思沉重地在西湖边上漫步。大有唐代诗人贾月下苦思“僧敲月下门”和”僧推月下门”孰好的架势。我不经意地抬头看到路边暮色里苏堤春晓的指示牌,知道到了苏堤春晓。于是马上想到เ苏堤春晓,配上个ฐ“秀”字不正好是一个上联吗?马上回旅馆打开系统试验,还真是对出来个“平湖秋月明、平湖秋月新、平湖秋月寒、平湖秋月香,还有曲院风荷清、曲院风荷新า、曲院风荷美之类的。接着又现了几个ฐ另外跟西湖有关的不错的例子。第二天在沈向洋的讲座里,他邀请我上台演示微软对联。这是该系统第一次在公众面前๩演示。第二天,很多报纸就相继报道了微软对联系统,其中杭州《东方早报》的记者刘文钊的报道写得绕有趣味。

我印象最深的是在2007年南京举行的二十一世纪的计算大会。这是微软对联第三次在这样的大会上演示。沈向洋在演讲时,要求我演示微软对联。为了入乡随俗,当时在做对联演示的时候,我想到了朱自清的一篇着名的散文《桨声灯影里的秦淮河》,于是我将“秦淮河桨声灯影”用做上联,系统马上生成了很多各具风格的下联,在随意选择了其中一条“松花江水色月光”作为其下联。接着,我们进一步选择了横批,于是一个“万民同庆”非常贴切地印入眼帘。

接着,我给系统出了一个“千江有水千江月”的上联,这里面有两个字是重复的,一个“千”,一个“江”,对联系统则巧妙地对出了“万里无云万里星”作为ฦ下联,然后以一句“纵横天下”作为横批结束。

其实这个对联是我在此之前๩送给沈向洋的。因为他当时即将奉调回微软总部担任全球搜索技术开的副总裁é。他是南京人,对南京怀有深厚的家乡情谊。这次他在南京的二十一世纪计算大会上的演讲,流露出回到家乡又要别离家乡的感觉,所以,我于是特意演示了这个对联,表达对他的深深的尊敬和祝福。

此外,在这次大会上,我们还展示了两个比较绝的对联:

对联一:

上联:凤凰台上凤凰游选自李白诗

下联:蝴蝶泉边蝴蝶

横批:麟趾呈祥

对联二:

上联:此木为柴山山出拆字联

下联:白水做泉日຅日昌

横批:景色怡人

快乐对联快乐心

微软对联完成之后,给我和很多人带来了许多快乐。我们在聚会时候胡诌一些上联,看看产生什么下联和横批,因此产生很多热烈的探讨。有的同事离开北京到其他地方แ去生活,我也会生成一个对联赠送给他。有人调侃说,这是世界上最便宜的却又是最有纪念意义แ的礼物了。

第76节:微软对联背后的故事4

来自总部的印度朋友raman9dra,他参与马可波罗计划到微软亚洲研究院访问五个ฐ月。他的太太kotyjane后来也来到北京。他们伉俪在北京度过了难忘的时光。

在此期间,我和我太太还有女儿星美曾经在一起有过交流,吃饭,聊天,很投机。在他们离开中国之际,我感觉恋恋不舍,于是就用微软对联把他和他太太的名字输入,对出一个ฐ横批,作为离别礼ึ物赠送给他们。

上联:陈睿蒙

下联:简凯迪

横批:展翼鹏程

我还记得张亚勤曾欲送即将退休的微软雷德蒙研究院前院长凌大任一个礼ึ物。他的秘书要求我写几句古雅的中文以表心意,供亚勤参考。我绞尽脑汁,写不出来。于是求助微软对联。我把凌大任名字嵌入到上联里,输入“纵横意气凌大任”,结果系统对出“上下春风倚青云”,横批是“锦绣江山”。

在微软深圳移动部ຖ门和微软msn部ຖ门同事的支持下,我们的系统很快实现了手机版本。通过短信或者彩信方式可以获得下联和横批。2006年末,经理们到香港参加中文大学举行的第一届微软亚洲研究院联合实验室会议。回来之后在珠海ร短暂停留两日຅继续讨论公司业务。我因为要去探望我在深圳工作的哥哥,就又逗留了一日。李世鹏因为要去台湾做一个特邀报告,因此也逗留了数日。晚上的时候,我和李世鹏在蛇口的一家酒吧喝啤酒。酒吧在一个ฐ轮船上,坐在船上可看到一轮明月高高地挂在天际。水光澹澹,微风习习。远处的香港如同海市蜃楼一般漂浮ด在海ร月之间。李世鹏诗兴大。出上联:远看香港朦胧灯景。他把上联用手机短信给对联的服务器,马上收到了系统回复的一个短信:“看看您的大作吧,上联:远看香港朦胧灯景,下联:遥望神州寂寞月光。还满意吧,回复88看更多内容。回复8+文字,重新出上联。”世鹏又出上联:“春花秋月何时了”。系统回复“暮雨朝云去不还”。这样一唱一和,不觉夜色已深了。真有“不觉碧山暮,秋云暗几重”之境。

电脑对联成功决

我经常在想,为什么这么一个ฐ听起来有点天方夜谭的项目居然获得了如此大的成功?到底有哪些地方值得今后的工作借鉴呢?

先我认为,得益于沈向洋的匠心独运的选题。在此之前๩,重庆大学陈廷槐教授曾经给我写过一封信,寻求在计算机自动生成诗词曲联领域的合作。当时为此事跟沈向洋请教过。沈向洋认为这个ฐ题目太难了,最关键的一点就是生成的诗词的意境和表达形式可能是散的。很难说什么是对的,什么不对的,因此不能有效地评价,而能够进行自动评价是关系到系统可持续展的关键。我们认为对联需要先输入上联,然后输出下联。两者已经要么相对,要么相合。在形式上,上联、下联要符合平仄,字数、词数要相当,而且上下联文字使用的规律要一致。譬如上联出现了叠字则下联一定要出现叠字,上联出现了叠音则下联一定要出现叠音。因此在形式上也有衡量的标准。而且,从机器学习的角度来讲,输入是上联和输出则是下联,结构非常清晰,便于学习。

我们也讨论了项目的重要性。对联的研究,看似小题目,却牵扯大问题。先,依靠互联网和人工智能ม技术帮助振兴和普及数千年中华文化,于国于民都是大事。在学术研究上,因为涉แ及到自然语言处理,人工智能、机器翻译的重要算法的研究,对推动以上学科领域的展也大有价值。

第二,我认为本项ำ目的成功,得益于微软亚洲研究院的创新文化。微软研究院历来鼓励创新า,不怕失败。因此,这样一个大胆的项目得到เ了沈向洋院长和继任的洪小文院长的大力支持,

第三,这个项目涉及到เ自然语言处理、网络挖掘、网络服务、界面设计。需要上述种种领域的人才通力配合。微软研究院各个方面的人才济济,而且大家配合默契。良好的组织管理和团队精神,保证了这个项目的有条不紊地顺ิ利进行。同时这个ฐ系统也是许多来自不同学校的实习同学一起努力的结果。在此,特别向参加本项目的所有同事和同学表示诚挚的谢意。

许多人问我下一步的计划。我在想,利用微软对联技术,应该可以试一试绝句和律诗的自动生成了。但愿能够做出来,把中华文明扬光大。

作者介绍:

周明,从2001年至今,担任微软亚洲研究院自然语言处理组主任。从事自然语言处理有23๑年历史。在1999年加入微软之前,曾任清华大学计算机系自然语言处理研究组的负责人。他是中ณ国第一个ฐ中英机器翻译系统cemt-1的研制者,在日本连续10年1้99๗8-2008๖市占率60%的中ณ—日、日—中机器翻译产品“j-ๅbຘei精”的明人。他领导的自然语言组在中文分词、跨语言检索,机器翻译等国际竞争中均获得第一名的佳绩。目前他担任《计算语言学》、《机器翻译》、《亚洲自然语言信息处理》等国际学术期刊的编委,还曾任世界计算语言学会议、世界人工智能大会的领域主席,亚洲信息检索大会程序委员会主席。他的信念是第一要做对的事,第二要用简单的方แ法,第三要做认真和执着的人。他业余时间喜欢读书๰,欣赏唐诗、宋词,当然还有对联。

第77节:找到属于自己的关键词1

找到属于自己的关键词

↑返回顶部↑

书页/目录

微软的梦工场