2014-7-28 23:33| 发布者: tianzc| 查看: 311| 评论: 0
2月20日晚,上海交通大学闵行校区软件学院报告厅座无虚席,正在举办“腾讯大讲堂走进上海”活动。有十余年搜索引擎开发经验的腾讯SOSO(搜搜)业务线首席架构师 & 基础架构部总经理朱会灿,进行了一次主题分享:“搜索引擎的技术与功效演变史”,和到场者分享了他多年的开发经验,讲解了搜索引擎的起源和现状,和未来的发展趋势。 搜搜首席架构师出马,自然引起了在校学生和行业内人士的极大关注,在大部分高校仍未开学,场地偏远并且活动当天下大雨等不利因素下,现场报名和现场签到人数仍高达数百人,活动之前的微博通知下,也收到了满满的“想看!求直播”的留言。 现场满座,观众很认真 搜索引擎的诞生与发展 会灿老师曾是谷歌最资深的华人员工,对搜索引擎的前世今生非常熟悉,一开场就详细讲解了当年搜索引擎如何横空出世。1990年,雅虎开创了搜索引擎的雏形,那时只是把网页按照标签分类,方便用户查找。类似图书馆的分类模型。这种分类方法,也被借用在谷歌的pagerank技术中。94年雅虎开创了网页搜索,让搜索更加方便。98年,真正意义上的搜索引擎谷歌搜索引擎应时而生,横空出世了。今天,搜索引擎上的网页已经达到了千亿级别,每秒钟都在帮助用户更准确地大海捞针。 会灿老师正在讲解搜索引擎的诞生与发展。 接着Huican老师给同学们介绍了搜索引擎的工作原理,其实搜索引擎并不神秘,一般为三步:Crawling,收集网页;Indexing:生成索引,每个索引对应着关键词等;Serving:把以上两步的信息,根据用户提供的要求,把匹配的选出,展示给客户。 开放性的Crawling和Serving,通过Indexing连接了起来,完成了搜索引擎的工作链。 会灿老师特别强调:“以上原理说来简单,但不同算法,精准性上差很多。”为了尽可能优化出最好的结果给用户,把最有效的结果排在最前面给客户,一般的搜索引擎在结果排名上,都会综合采用三种技术:Pagerank(传统的分类技术,通过网页链接关系决定网页重要性),Click Model(通过用户的点击率决定网页的重要性)。 同时他还提到,搜索结果和排名,还常常受限于网站的现状。搜索引擎无法每天更新所有的网页,这一般是受限于带宽和网站自身的能力。今天搜索引擎常会会根据网页改变的历史来判断是否需要刷新。尽可能地既刷新资源网页,又要节省运算成本。 搜索引擎并不会每天都更新所有网页。所以如何合理更新,是涉及到很多方面因素的,考验搜索引擎实力的问题。 关于搜索引擎面对问题和应对策略的讨论 会上会灿老师还分享了搜索引擎目前面对的问题和相应的应对策略。随着搜索引擎的逐渐推广和普及,越来越多的用户和网站都同时发现了这块重要阵地。为了争取到第一页的排名,几乎从搜索引擎诞生起,作弊系统就一直在和搜索引擎玩猫鼠游戏。合格的搜索引擎必然有一套有效的反作弊系统,尽可能优化用户的搜索结果。会灿老师以soso为例,讲解了被称为“anti-SPAM”的反作弊系统系统,目前,搜索殷勤一般通过网页和link的点集合互联关系,来判断网页是有恶意作弊。 “anti-SPAM”反作弊系统:一般是用各种工具来识别欺骗性网页,这些年流行的是用link firm detection来识别欺骗链接。 如何开创新局面 最后,会灿老师谈到今天互联网的现状:微博和SNS网站冲击了搜索引擎的很多流量;同时,手机端和PC端的分水岭大势已成,人工智能应用正在越来越多地被接入。面对这样的新局面,搜索引擎也要把握发展的新方向。会灿老师分析的新方向是:社区化,无线化,智能化。他认为腾讯能够比较好地把握住搜索引擎转型的这次契机,因为腾讯有庞大的社交网络Qzone和朋友网,能够提供丰富的SNS数据,同时腾讯也有丰富的无线服务,腾讯研究院在人工智能的研究也一直处于前沿水平。三管齐下,soso正在尽全力迎接新的挑战。 SNS给搜索引擎的一个巨大威胁就是:内容不公开,搜索引擎是拿不到的。但对同时有SNS网站的腾讯,搜索引擎却能力上加力地方便SNS用户更精确地找到朋友和圈子。 一个多小时的分享里,现场气氛活跃,不断有听众举手提问。除了本地高校的学生,很多上海本地的IT同行也参加了这次活动。会灿老师言无不尽,一一作答,交流气氛良好。 一位现场的听众正在提问。这次活动吸引了很多专业人士,提出的问题都很有水平。在微博做线上解答的另一位soso工程师frank开玩笑说“简直像图灵奖的现场”。 考虑到有根多用户无法亲临现场,为了尽可能的方便他们,这一次活动不仅有线上视频直播,还引入了微博线上答疑功能。Soso另外两位专家,frankjiao和rickzhuang,与腾讯大讲堂的同事紧密配合,通过微博上墙,不间断地回答来自微博和手机的关于搜索引擎的问题。线上提问气氛热烈,收到提问数十份,每位提问者至少得到一次解答,绝大部分提问者都表示满意。 活动之后,腾讯大讲堂对线上和线下的用户做了一次问卷调查,大部分参与者人为活动效果理想,对soso和搜索引擎有了更好地了解,能和首席架构师面对面提问回答,大家表示体验很好。 为了最大程度地方便不能到场的听众,活动结束之后,腾讯大讲堂还贴心地将PPT和视频放出,提供免费下载,也引来了线上下载的高潮。很多用户表示,这样的资源更方便自己有效的学习,很受益。希望腾讯以后多发放这样的资源。 (视频&PPT链接地址:http://djt.qq.com/article/view/145欢迎免费下载) 在这里再次感谢会灿老师给大家带来这么有价值、有意义的分享!也感谢线上线下所有支持和参与活动的听众!下一站3月27日晚上19:00-21:00,地点华南理工大学音乐厅,由腾讯广州研究院助总、微信中心技术领头人周颢揭开目前最火爆的通信工具——微信背后的技术玄机,不容错过!我们广州见! |