解密:李彦宏背后的“蜘蛛侠”
李彦宏的细腻与心机表现在一本书上。
上市后的百度已有近700名员工,据说他们均可以免费得到老板李彦宏在创立百度之前写的一本200多页的小册子——《硅谷商战》。当然,百度员工中真正读完这本书的可能微乎其微。
这本被包装成章回体小说的文本,说它是小说肯定有些牵强,因为它没有故事也没有结构。但它确实可以作为时下急欲成为互联网从业人员的一本上岗前阅读的通俗手册。
其实,这是李彦宏在美国读书期间写的一本“技术”笔记,其纪录时间是1994年至1998年。当时的李彦宏辗转美国几大it公司,埋头打工与抬头想事是在美国学计算机专业的中国留学生通常会走的谋生道路。在他们身边,平均每5天就有一家硅谷公司股票上市,每24小时就造就62个百万美元的富翁。
李彦宏这一批在1990年代初、中期降落到美国的中国学生,为数不少的在几年后回国创业——拷贝硅谷模式。
从书中内容可以看出,李彦宏在技术层面没有特别的偏好,他关注的东西很宽泛:从浏览器大战、搜索引擎、网上服务引发的电子媒体战,再到sun的java与ibm、甲骨文、微软的网络计算机竞争……此时的李彦宏显然还没有找到方向,所以他看到什么就纪录什么。
可能是命运注定。在infoseek(全球第一批搜索引擎服务商)工作期间,李彦宏在澳大利亚参加一次学术研讨会时,在会议室的板报上贴了一个小纸条,希望与有兴趣研究搜索引擎的大腕过招。就是这张纸条,吸引来了google的创始人谢尔盖-布林与拉里-佩奇。当然,他们还是穷大学学生。
当时,李彦宏与这两位后来的“搜索引擎巨匠”交流了什么,尚不重要,因为这个领域的风向标是雅虎、infoseek、excite和lycos。
几年之后,李彦宏回到中国创立的公司纳斯达克上市,与google一样,获得前所未有的追捧——上市第一天就跃入股价超百美元的行列。
李彦宏交了什么运?他那张通常挂着漫不经心笑意的脸,很少有激愤或是夸张的表情。有员工私下称李为“唐僧”,并不是意味着他管理上的软弱、和气,而是因为他对有些事情交代得过于琐碎,也就是通俗的“唠叨”。
可以说,李彦宏创立百度的前期准备是从他写这本书开始的。李彦宏最为“唠叨”的环节就是两个字:“技术”。
技术四足
如果有人当面说,百度的客户体验不如google,得到的回应会是什么?
与李彦宏一起参与公司创立的百度cto刘建国可能会以温和的方式表达他的愤怒。
“上市之后,百度接下来最重要的任务之一就是不断地优化搜索技术,给用户提供更丰富的用户体验。”刘建国说。
通常意义上说,搜索技术包括四个环节,网页抓取、超链分析、网页检索和搜索服务。这是搜索技术的“四足”,无论百度、google,还是雅虎用的都是类似的技术。“百度之所以成功,是在相似技术下为用户呈现了更优的结果。”刘建国说。
一个显而易见的例子是,google需要对全球数以百亿计的网页进行更新。而网页数量如果增加10倍,其抓取难度将增加上千倍。这样,google在中文网页更新速度方面就远不及百度。刘建国认为:“在中文网页的更新速度方面,百度因专注而超越对手。”
业内人士指出:由于google的服务器远在美国,不仅其响应速度较慢,而且其ip地址容易因为各种原因被封杀,这也使得google的用户体验不如百度的用户体验。
相关阅读:
“超链(hyperlink)分析”更是百度的拿手活。所谓超链分析,即是对网页之间的相关性进行评价。李彦宏早在道琼斯工作时,就对超链分析技术进行了研究,并拥有其中几项专利。
“超链分析涉及许多对中文的理解,包括对词汇、语法的理解。如果对中文的理解出现偏差,那么分析结果就会谬之千里。搜索结果不准确,就会伤害用户的感情体验,最终导致网民流失。”刘建国这样分析。
从2000年开始,百度就不断积累自己的语料库,包括与人民日报等权威中文机构合作,使用人民日报的语料库。“丰富的语料库来自于百度的积累,百度每天都要处理上千万中文网页,处理中文网页的过程实际是对中文词汇积累的过程。”在网页检索方面,经验积累至关重要。
“百度有专门的团队进行中文语料的分析,专门研究中文切词。有经验的技术人员凭经验就能分析出什么样的链接是用户最需用的链接。竞争对手要培养出这样一个团队,至少得两年时间。因为专注的百度花了四年。”刘建国一语道破天机。
搜索服务则更为琐碎。百度为了满足各种用户不同的需求,专门设立了一个流程:根据市场部门的调查,产品管理部门提出需求,技术研发部门则拿出实现这种需求的技术方案,最后进行检测,检测如有问题再由技术部门进行优化。
作弊网站的电话
“为什么屏蔽了我的网站?”刘建国经常会接到这样的电话质询。这样的电话来自一些个人网站,由于存在作弊痕迹,百度不再把这些网站纳入搜索范围。
“这样的电话每天有多少个,不计其数。”刘建国有些无奈。而更多的电话则由刘建国的手下接到,有些人甚至直接找到李彦宏。
但李及其他技术人员的回答通常与刘建国的回答一致,“你先自查一下,看有没有作弊,然后再来电话,好吗?”
“因为这些作弊网站试图通过seo(搜索引擎优化)技术欺骗搜索引擎,这损害了用户体验。”刘建国解释。但刘没有道出的另外一个原因是,这些作弊网站同时损害了百度的利益。
据刘介绍,作弊最通常的手段是堆砌链接(linkform)。即某些个人网站,在某些企业具有商业利益的网页上,对某些高流量的词汇进行堆砌,以提高此网页的相关性而排名靠前,当网民检索时,就很容易检索到这样的网页。这些个人网站会对这些企业说:你给我付钱,我会对贵公司的网页进行优化,让你网页搜索结果排名靠前。
另外一种作弊方式是,作弊网站将前景色(内容)与背景的颜色做成一致,利用这种方法欺骗搜索引擎,因为搜索引擎正是通过前景色与背景色的差异对网页内容进行识别。在这样的网页上,通常是作弊网站想推广的内容而不是网民想搜索的结果。
除了从企业哪儿收费之外,这些作弊网站还有一种赚钱方式——自己推广彩铃这样的收费服务。
“百度反作弊技术同样需要经验积累,很多作弊网站除了用技术手段进行分析外,还需要通过人工手段进行识别。没有这样的团队,没有与作弊网站长期作斗争的经验,面对庞大的作弊网站群体则将束手无策。”刘建国说。
其所谓面对作弊网站束手无策的网站中不乏百度的竞争对手。在google进入中国之初,已经有一批搜索引擎优化服务商(seo)为企业提供关键字广告服务。这些广告费全部被搜索引擎优化服务商截流,而作为技术与服务提供者google则在为他人做嫁衣裳。
google怒斥这些seo为“伪代理”,其进军中国的第一件事是发展代理,加强渠道建设,第二件事则是清除伪代理。
“就像微软与黑客的斗争,这是一场永远都不会结束的战争。”刘建国表示,“百度的希望是尽量不让这些作弊网站伤害用户的利益,而百度的优势是在与这些作弊网站长期斗争中形成的经验。”
相关阅读: