标签归档:搜索引擎

搜索终结者:语义结构化搜索 Wolfram Alpha

搜索终结者:语义结构化搜索 Wolfram Alpha

Wolfram Alpha(http://www.wolframalpha.com/)与 Yelp、Wikipedia 等服务一起为全球数亿的 iOS 用户提供 Siri 服务支持,苹果提供语义识别,而 Wolfram Alpha 负责告诉你“solve x^2 + 4x + 6 = 0”的答案,或者是你指定气压下水的沸点。没有 Wolfram Alpha,Siri 就只能让你去 Google 一下了。

该产品于 2009 年 5 月 15 日正式发布,在美国 Popular Science 杂志的投票评选中获得 2009 年度最伟大的科技创新产品的荣誉。

你问 Google 任何问题,Google 都能从它的庞大数据库里扔给你一堆网页,然后寄希望于能从里面找到需要知道的信息,事实上这事儿是需要靠运气的。Wolfram Alpha 做得更彻底,它先分析使用者实际需要的是什么,将网页二次处理为结构化数据,然后利用机器直接告诉他们答案。

按照发明者 Stephen Wolfram 的说法,这个网站其实是一个计算知识引擎,而不是搜索引擎。其真正的创新之处,在于能够马上理解问题,并给出答案,这种方式可以节省用户的大量时间和精力。

在被问到“珠穆朗玛峰有多高”之类的问题时,WolframAlpha 不仅能告诉你海拔高度,还能告诉你这座世界第一高峰的地理位置、附近有什么城镇,以及一系列图表。

要是问“什么是升 D 大调”,Wolfram Alpha 可以把它演奏出来;倘若输入“抛 10 次,4 次正面向上”,Wolfram Alpha 可以猜到,你其实是想知道抛硬币的概率问题。甚至连某地下一次日食的时间,或者国际空间站现在的位置,Wolfram Alpha 都能给你答案。

你可以尝试以下搜索词:

  • mortgage 6%, 25 year, $140000 显示了按揭贷款应付利息随着时间的推移所发生的变化。
  • life expectancy france 25 year old male 使用生命分析技术,预计一位法国 25 岁成年男性的寿命。
  • lim(x->0) x/sin x 将产生一个图示以及相应的级数展开。点击按钮“show steps”(显示计算步骤)就会看到使用洛必达法则得到的可能的微分结果。
  • “What is the forty-eighth smallest country by GDP per capita?”(按人均 GDP 计算,第四十八个最小的国家是哪个?)答案是:圣多美和普林西比,每年 1110 美元。
  • 如果输入“China GDP”,出现的将不是一大堆网页,而是直观的数据和图表。包括:中国 GDP 最新情况,从 1970 年至今的中国 GDP 增长情况(图表形式)、中国通货膨胀率、失业人口率。
  • 如果输入“How many people in China”,你可以看到目前中国的总人口数、人口密度、平均每年人口增长率、预期寿命和平均年龄等数据。
  • 如果输入“Baidu”,你可以看到百度公司的股票代码、价格、市值、历史回报数据、同类公司对比、管理团队等数据。

这就是 Wolfram Alpha 带来的,能直接给你答案的工具型知识搜索,尽管它并不能告诉我小孩尿布应该买什么品牌,但在大多数时候它能够给我比 Google 更适合的结果,耗费世界更短,答案更准确客观。

Wolfram Alpha 能提供数学、统计分析、物理学、化学、能源矿产、机械电气、天文学、地理、生命科学、计算机科学、人物&历史、文化传媒、音乐、语言学、体育&游戏、色彩、商品购物、财经、社会经济数据、医学健康、食品&营养、教育、组织信息等类别信息,非常强大,非常强大。详细的类别与使用范例可访问官方说明。(http://www.wolframalpha.com/examples/

Wolfram Alpha 不能替代 Google,事实上它已经逐渐走向了垂直与学术领域,但对 Google 产生的威胁是显而易见的,Bing 此前已经与 Wolfram Alpha 达成了搜索业务上的合作。所以 Google 在去年推出了知识图谱搜索,而国内的百度也在强化框搜索,通过结构化数据与服务弥补网页搜索的体验不足。

微信关注网中央

周鸿祎十年复仇:我胡汉三又回来了

从2003年出售3721给雅虎到现在,周鸿祎也从而立之年到现在的四十知天命,进入雅虎中国斗争受挫转行到IDG做投资,再到做投资进而掌舵奇虎这家公司(三际无限),频繁转型搜索、问答却不得路而出,最后依靠一款安全软件在流氓软件满天飞的年代一飞冲天。

安全软件、网址导航、浏览器成功构筑了奇虎360的金三角,纽交所上市之后老周好像也圆满了,成功跻身大佬之列。但老周是有遗憾的,他曾经在公开场合表示,卖掉3721是一个错误选择:

当时3721已经是国内最大的搜索引擎了,如果我没有把它卖掉,而是将不好的用户影响修正过来,现在它至少可以跟百度平分中国市场,3721是一个至少几十亿美金的教训。

百度目前市值超过400亿美元,而奇虎360市值25亿仅为百度的二十分之一。如果说奇虎360是二婚,那错过的3721则是老周永远无法忘怀的原配,甜过初恋。周鸿祎从雅虎出来做反流氓软件,几乎是把3721亲手扼杀。

终于老周还是决定再进搜索市场,在本月18日正式推出了360搜索服务。尽管目前只是融合了各家搜索服务的“综合搜索”,但做过3721网址实名的老周比任何人都清楚入口的重要性。

无论网址导航、浏览器搜索框还是团购开放平台,都体现了他对入口的强烈企图心,寻找并霸占入口-流量变现是他擅长的游戏规则。这次老周挑上的是老对手,现在的中文搜索一哥百度,无论从早期的流氓插件还是3721搜索,他对这家公司拥有丰富的斗争经验。

这一次,他要百度的命!

无论是安全软件、浏览器、导航都为他累积了足够的资本,对于大多数用户而言从哪里搜索并不重要,最重要的是搜索结果是否符合预期,而浏览器、导航都有了固定的用户搜索量。这一次,他希望更多的用户记住360搜索,而不是百度,为了这个目标他可以舍弃短期的搜索分成收益。

以最快的速度,旗下浏览器与导航的默认搜索都换成了360搜索,金山网络CEO傅盛宣称360搜索已经占据超过10%搜索份额,尽管这个数字并不完全精确但仍然有一定趋势价值。

百度也很快进行了反击,流量变现模式是百度的命根子,入口品牌减弱意味着命脉被老周握住了,百度知道迅速对360搜索用户给出提示,要求设置百度为首页,并且这一提示可能在未来扩大到网页搜索。

对于周鸿祎而言,战斗就是生活,他需要倾尽全力去跟百度再搏一把。

遥想公瑾当年,小乔初嫁了,雄姿英发,羽扇纶巾,谈笑间,强虏灰飞烟灭。故国神游,多情应笑我,早生华发,人生如梦,一尊还酹江月。

——苏轼、赤壁怀古词

六大图片搜索非专业横评

这是一份很偶然情况下立意做的横向评测,即便视频搜索这样的新兴搜索方式兴起,图片搜索仍然是除网页搜索外最常用的搜索方式。从最典型的百度搜索的Alexa数据看,图片搜索的访问比例仅次于网页搜索、知道、贴吧位居第四,高于百度百科、百度新闻及视频搜索。

图片搜索也是最容易让人忽视的产品类型,因为图片搜索很难像网页搜索那样快速得到质量反馈,换言之图片搜索的质量、体验也许与其所占的地位并不相符,这也是写这篇横评的初衷,希望大家不要忽视图片搜索的重要性。横评囊括了百度、Google(.com)、Bing、搜搜、有道、搜狗等主流搜索引擎的图片搜索,观点如有偏颇还请见谅。

所有图片搜索都支持通过独立的子域名访问,大部分使用images子域名,搜狗使用了pic子域名。其中需要注明的是Google与Bing直接点击导航栏会跳转到对应页面,而不是独立的子域名。

大部分图片搜索都不约而同使用了传统的搜索界面,包括Logo、大输入框、搜索按钮以及一些简单的导航,其中Bing图片搜索是采用了与Bing整站一致的风格。

图片分类是指按照用户的浏览习惯,把搜索结果进行分类、整理最后集中呈现出来,例如美女、名车这样的图片分类页,几乎所有的国内搜索都加入了这样的功能。而Google与Bing则没有这样的归类整理。

几乎所有的图片搜索都能够根据屏幕宽度调整搜索结果宽度,但是有道图片搜索的宽度设计略显保守,1366*768右边会留下一大块空白。

在分辨率适应中,我尝试了1366*768、1024*768、800*600三种典型分辨率,其中Google与有道的表现最好,我更改分辨率后不用刷新页面搜索结果即可动态调整,百度、搜搜、搜狗刷新搜索结果后正常,Bing在800*600分辨率下表现糟糕,需要拖动横向滚动条来查看搜索结果。

除有道图片搜索外,其它图片搜索都提供尺寸及颜色筛选功能,同时还有包括照片、人像、QQ表情等特色的图片筛选项。百度在图片筛选功能方面表现突出,还提供对特定搜索结果的场景筛选,例如我搜索刘德华会给我剧照、生活照、写真等筛选项。

翻页是图片搜索的重头戏,因为大多数情况下都无法在第一屏找到想要的图片,翻页就变成了图片搜索最常用的操作。Bing、Google两家使用无限下拉解决这个问题,去掉了传统意义上的翻页让用户使用更流畅,而百度、搜搜都使用了异步刷新,用户不需要刷新页面就可以执行翻页操作,并且鼠标焦点不会有任何改变,这也是一种不错的改进方法,而有道与搜狗则沿用了传统的翻页方式。

此外,百度与Google都加入了按图片搜索功能。

最后再上一个搜索速度与索引数量的对比,选择了郭美美、夏馨雨、3d肉蒲团、变形金刚3这样一些热门搜索词,这些数据仅供参考并不能代表最终搜索结果。

我个人平时经常用图片搜索,个人体验Google比百度准,这可能会有个人偏颇的部分,但是Google的劣势是时而在国内不可访问,并且由于其全球布局不能够为国内用户提供更多针对性功能。从国内的图片搜索看,百度仍然占据第一的位置,但是腾讯搜搜的上升趋势已经非常明显,其中包括巨大用户量以及对产品的持续改进。搜狗的图片搜索中规中矩,而有道图片搜索则已经落后太多。

淘宝搜索要强大 必须先去淘宝化

伴随着网络购物的快速崛起,商品数量与信息量急剧攀升的情况下,购物搜索就代替购物平台本身成为更好的选择,提更为全面的商品比价信息。这是两种模式自身优缺点所决定,这样的趋势不可逆转。所以作为C2C巨鳄淘宝自然不能坐以待毙,你们能做购物搜索自然我也能做。

终于,在淘宝PR的努力公关下、在广大业界群众的围观下,淘宝购物搜索终于小荷才露尖尖角,现出了本来面目,说是千呼万唤始出来也不为过。但是我们对于这样的淘宝购物搜索仍然存在着这样那样的质疑:

Q1.现在的淘宝购物搜索只是淘宝站内搜索

简单试用了一下,淘宝这个购物搜索其实真是一特简单的产品,就是将淘宝上方的搜索框给搬过来了。只是搜索结果去掉了各种广告和推广,也去掉了商城的搜索结果,对一些细节进行了重新设计,除此之外和淘宝的搜索框并没有什么两样,甚至还有淘宝消保计划的图标。

以后我去淘宝买东西就用淘宝搜索了,速度会更快一些。但是相对于我们的期待来说,这样的一个搜索框会不会太简单,如果只是一个淘宝的站内搜索需要这么独立出来吗?当然未来淘宝购物搜索完全可能展开更多的合作,甚至结合淘宝自己的大淘宝战略结盟更多的商家,只是现在的淘宝购物搜索实在很难让我们给出一个满意的分数。

Q2.淘宝购物搜索怎样确保平台的中立?

现在的淘宝购物搜索域名挂在淘宝下面,并且处处细节都透露出与淘宝之间的联系,甚至Logo都是赤裸裸的淘宝网仨字。如果你是京东、拍拍,淘宝叫你来加入这么一购物搜索,你敢作出这么一决策吗?谁能保证淘宝不会从背后偷偷做点小动作,所以如果淘宝购物搜索不独立出去,很难取得大家的信任,这里的大家包括消费者,也包括商家和各大购物平台。

养虎为患、引狼入室的事情对方不会做,在这种情况下下Google购物和有道购物的优势反倒凸显出不少。至少他们自身没有做网络购物,不用担心会被给小鞋穿。即便是有一天他们想要分钱,那也是小事,有钱可以大家赚,钱能够解决的问题都不是问题。但是要让那些商家真心实意扑到淘宝购物搜索上来,淘宝还需要很长的路要走。

简而言之,这个淘宝的搜索并没有任何可以值得称道的亮点(除了没有广告)。套用周星星同学一句话:长夜漫漫无心睡眠,我以为只有我睡不着,想不到晶晶姑娘也没睡?

泛搜索时代 网站应该更擅长搜索

泛搜索时代

泛搜索时代,我在考虑了很久后才决定用“泛搜索”这样一个词来表达我的想法,这个泛有广泛的意思。泛搜索即搜索已经无处不在,并不仅仅局限于传统的通用搜索引擎,已经渗入到各种类型的网站并且发挥重要的作用。

我观察了包括新浪、搜狐、网易、腾讯、阿里巴巴、淘宝、京东等一系列知名网站,他们的首页都有一个共通点就是将搜索框放在了第一屏的醒目位置,即便是人民网、新华网这种传统媒体也不能免俗,撇开搜索框的具体功能和归属不谈,这至少证明搜索功能已经成为一个网站必不可少的功能之一。而且各种CMS的跟进与各种中小网站对这种趋势的追逐,毫无疑问泛搜索时代是真的到来了。

曾经看过很多大中型网站的用户热点分布图,其中的共性之一就是搜索框绝对是排在用户关注度前五,甚至有不少的位居前三,搜索功能已经成为用户查找资讯、产品的重要工具。

为什么用户会这么热衷于搜索?我们回归到互联网刚在中国兴起的时候,那时候可能全国就屈指可数的几个网站,由于人力的关系更新的内容可能每天也就几篇,所以那时候无论是网站还是内容都没有需要搜索的需求。稍后一点网站数量多了一点,网站内容也累积更多了一些,查找网站我们就需要网址导航来帮助我们快速到达,网站内容开始尝试着频道划分和主题归类,这是属于分类导航时代。到现在无论是网站数量还是内容数量都达到一个可怕的数字,并且每天这个数字还在以惊人并且越来越快的速度增长,传统的分类导航只能够作为辅助,他们只能够进行网站和信息的一个粗略分类,并不能帮助用户精确找到自己需要的信息,这时候就需要搜索功能将泥足深陷的用户解救出来。

搜索有聚众与分众之分,聚众的意思就是聚合来自各种网站的各种类型内容供用户查询,百度、Google属于此类。分众搜索就是针对特定需求或者特定网站的用户设计,迅雷的狗狗搜索、网站的站内搜索都属于此类。针对百度、Google们的搜索已经有很多人谈得很多了,今天着重来说说网站怎么让搜索来提高用户的浏览效率和改进网站的体验。

如果你认为搜索功能将会有助于网站品质的提升,那么你需要做的第一步就是调整出一个好的位置用来放置搜索,这个位置最好在第一屏并且容易被用户发现和使用。在给出一个好位置之后你需要让设计人员确定一个适合的样式,让搜索框匹配整个网站的风格和网站想要传达的品牌印象,这将会让搜索功能更容易被用户接受和使用。

在搞定上面的一切之后也许你们的产品人员应该一起开个小会,讨论下搜索框的具体功能,例如是使用下拉菜单还是选项卡提供分类的选择,哪些内容需要被纳入搜索的范围,当然这个时候如果有一些数据的支持会更好。然后应该做的就是确认搜索结果页的设计,使用列表还是使用其他样式展示搜索结果,需要给用户展示哪些内容?浏览、点击、价格、折扣怎样进行取舍,需要给用户提供哪些搜索结果筛选功能,这些都至关重要。

做完这一切你们就可以在测试无误之后把产品上线了,在经过一段时间之后用户会给你们一些反馈,同时也会有足够的数据进行挖掘,这些都将会成为你们改进搜索功能的基础,如此反复搜索功能将会成为你们网站重要的不可或缺的一部分。当然也可以继续拓展思维,例如用户在我网站搜索内容会不会也希望得到来自百度、Google的搜索结果呢?或者是地图、距离等各种参考信息。

这段时间总结的东西基本就这些,更多是希望大家不要满足于现在简单的搜索功能,继续深挖搜索功能的潜力,乃至提升整个网站的用户体验。泛搜索时代,你的网站准备好了吗?

搜搜尚未成功 腾讯仍须努力

搜搜需要走得路还很远

在几乎没有任何媒体宣传的情况下,腾讯旗下搜索引擎搜搜上线了自主搜索技术。众所周知搜搜之前的网页搜索结果是使用来自Google的技术,估计这个时候双方的合作协议也刚好到期,目前搜搜的帮助文档还没有作相应的更新。

搜搜网页搜索相较之前增加了类似有道的预览功能,搜搜保留的是基本的文字内容和超链接,有道保留的是文字和基本的CSS样式。其他部分也有细微差别,不过这两个功能并不存在实质差别,都可以帮助用户快速获取目标网页的相关信息,提供除了快照以外的更多一种选择。

腾讯当然是想要借助自有搜索技术的上线在搜索市场分一杯羹,不过是骡子是马拉出来遛遛,我们来看看腾讯新搜索的表现怎么样。

错词纠正

由于中国文化博大精深,同音字太多导致我们可能有时候会遇到输入错误,当然这种情况也可能发生在英文的拼写错误,这个测试项目选用一个中文关键词与一个英文关键词进行测试。

周于明:用户想要搜索的是F4里面的周渝民,中文的错词纠错根据拼音库进行判断,搜搜、百度、谷歌都给出了“周渝民”这样的正确提示,搜搜和百度都显示为错误输入的搜索结果,谷歌胜出的点是是它对所有可能拼写错误的搜索结果都会给出所提示的关键词的两个搜索结果,这让它的搜索结果具备更多的可用性。

Michel Jackson:MJ的粉丝应该可以很容易看出这是一个拼写错误,正确的拼写应该是“Michael Jackson”。搜搜并没有给出正确的拼写提示,搜索结果显示为错误拼写的搜索结果;百度给出了正确的拼写提示,第一二项结果具有可读性(MJ粉丝网站和维基百科),其余为错误拼写的搜索结果;谷歌给出了正确的拼写提示,搜索结果为正确拼写的搜索结果。

索引数量与索引速度

这两个指标直接关系着搜索引擎能否为用户提供快速的搜索体验和优秀的搜索质量,这里将会使用两个随机选择的热门关键词进行测试。

网瘾:搜搜、百度、谷歌的完成搜索时间分别为0.104秒、0.002秒、0.20秒,百度以巨大的优势领先,搜搜与谷歌紧跟其后,需要说明的是这样短的差距对于普通用户几乎是没有差别。接下来是索引网页数量的较量,搜搜搜索到了2,570,000项结果,百度搜索到了6,090,000项结果,谷歌这个数字为8,640,000,百度领先搜搜接近200%,而谷歌又领先百度超过40%。搜搜落败在意料之中,毕竟Sosospider的出道时间比另外两家实在是晚太多。

郁可唯:中国头号选秀节目的热门选手,郁可唯自然适合用来作为测试关键词。搜搜、百度、谷歌的完成搜索时间分别为0.051秒、0.003秒、0.30秒,三方趋势与上一个关键词相同不再赘述;索引网页数量这一指标,搜搜为1,370,000项搜索结果,百度为1,020,000项搜索结果,谷歌为11,700,000项搜索结果,搜搜在这一轮反超百度,而谷歌大幅扩大了优势,大有打着望远镜都找不着对手的感觉。

中文分词技术

中文分词一直都是各大搜索引擎相互比拼的领域,中文分词技术的提升能够最有效提升用户的搜索体验,所谓中文分词简而言之就是让电脑知道用户想要什么,尽管用户的搜索是那么千奇百怪,仍然选用两个中文关键词进行测试。

学生会组织义演活动:搜搜的分词为学生会\\组织\\义演\\活动,正确;百度的分词为学生会组织\\义演\\活动,错误将学生会组织这样一个动宾短语识别为一个名词;谷歌的分词结果为学生会\\组织\\义演\\活动,正确。

胜利取决于勇气:搜搜的分词为胜利\\取决于\\勇气,正确;百度的分词为胜利\\于\\勇气,取决那个词直接被忽略,让人比较困惑;谷歌的分词为胜利\\取决于\\勇气,正确。

百度在这一回合的落败让人意外,毕竟几年前百度曾经叫嚣着最懂中文,搜搜的分词与谷歌基本相同。

搜索质量实测

这一回合避开单项测试可能造成的误判,采用最直观的搜索结果来作一个较量,同样是两个关键词,一个是问答式的需要得到解答,另一个热门关键词,考验搜索结果内容质量。

2010世博会在哪里开:搜搜在第三位提供了来自百度知道的搜索结果,前两位搜索结果并不能提供相关性了解;百度在第六位提供了来自百度知道的搜索结果,上方的搜索结果皆为世博官方网站或者对应的门户专题,这体现了百度越来越明显的倾向于门户站点;谷歌在第三位提供了来自搜搜问问的搜索结果,前两位为来自世博官方网站的搜索结果。如果要排序的话谷歌第一,搜搜第二,百度第三。

周杰伦:周董的关注度绝对是毋庸置疑,用这个词来考察搜索引擎第一页内容的丰富程度。搜搜的第一页搜索结果包含两条歌迷网站、两条音乐搜索(百度MP3、搜搜音乐)、一条图片搜索(搜搜图片)、一条百科(百度百科)、四条网站专题(新浪、腾讯、TOM);百度的第一页搜索结果包含两条歌迷网站、一条音乐搜索(百度音乐)、一条图片搜索(百度图片)、一条百科(百度百科)、两条网站专题(新浪、腾讯)、一条相关新闻(百度新闻)、一条贴吧、一条视频(百度视频);谷歌的第一页搜索结果包含一条歌迷网站、两条音乐搜索(百度MP3、谷歌音乐)、一条百科(百度百科)、七条网站专题(新浪、腾讯、TOM、搜狐、网易、人民网)、一条相关新闻(谷歌资讯)、一条博客搜索,值得指出的是谷歌音乐、谷歌资讯、谷歌博客都是没有算进十条搜索结果的,也就是谷歌有十三条搜索结果。排序依次为谷歌第一、百度第二、搜搜第三。

搜搜如果想要争得一席之地需要走得路还很长,搜索引擎很大程度上并不能从腾讯在IM的强势获利太多,搜搜需要面对的更多是技术提升和用户习惯的教育,百度的崛起是因为当时在中文搜索的技术优势与用户习惯而,谷歌市场份额回升是因为技术的改进和用户教育,而这两方面都是搜搜缺乏的。So,腾讯仍须努力。