湘里妹子学术网

 找回密码
 注册
查看: 2638|回复: 2

中文搜寻引擎的十大误区

[复制链接]
发表于 2004-6-26 21:23:56 | 显示全部楼层 |阅读模式
文章主题: 中文搜寻引擎的十大误区
发表时间: 2001年09月08日 00时37分  
发表作者: 百度论坛  
发表内容: 中文搜寻引擎的十大误区
来源:青藤书屋

---------------------------------------------------------

误区1、网站目录就是搜寻引擎

    网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜寻功能。网站目录就是搜寻引擎的迷司始于雅虎,雅虎初创时就是只有一个网站目录。当然很快就通过外包的形式增加了网页级的搜寻。中文网站提供目录搜寻的远多于提供网页搜寻的,加之媒体的各种炒作,许多网民误以为网站目录的搜寻功能就是搜寻引擎。
  在美国,网际网路搜寻引擎通常指的是收集了网际网路上
几千万到几亿个网页并对网页中的每一个词进行索引的搜寻服
务系统,是基于网页的全文检索系统。

误区2、搜寻引擎就是门户站点
    如果你要提供搜寻服务,大家就认为你是一个门户网站,你就要吸引用户、提高页视率(PageView)。实际上,搜寻引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜寻服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。

误区3、搜寻引擎的概念已经过时
    搜寻引擎是网际网路上最先商业化的一个应用服务,它对于帮助网民快速寻找到所需要的资讯非常关键。网际网路搜寻引擎是一个全自动的软体服务,并且非常容易在搜寻结果网页中插入具有很高针对性的广告,CPM 最高可达70美元所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。根据中国互联网信息中心(CNNIC)2000年1月的统计结果,在中国网民中,搜寻是排在电子邮件之后的第二大网际网路应用。

误区4、中文搜寻引擎技术已经成熟
    不要说中文,即使英文的搜寻引擎也没有发展成熟。这一方面表现在新的搜寻引擎公司层出不穷,如 Google, Ask Jeeves 等另一方面更表现在美国前三大网站都外包了它们的网页搜寻部分。实际上,美国线上、雅虎和微软网络的搜寻服务都是由一家叫 Inktomi 的公司提供的。这是因为搜寻引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。之所以有人会有搜寻引擎技术已经成熟的概念,其实是因为网站门户公司意识到了它们的长处并不是搜寻技术的创新,而是网际网路上大众品牌的建立。
  中文搜寻引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜寻引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜寻引擎经验的人,即使在矽谷也属凤毛麟角,开发所需要的硬体要求也比一般的网页制作高出很多。百度公司结合矽谷搜寻引擎人才精英,依托北京最优秀的软体人才,开发了大型商业化的中文搜寻引擎,中文搜寻从此与英文站在了同一起跑线上。

误区5、中文搜寻引擎速度很慢
    某些中文网站的网页搜寻服务外包给了一些服务器在境外的应用服务提供商(ASP),如 AltaVista 或 Openfind 等,由于用户搜寻需要占用出国带宽,因而速度极慢。这不是中文搜寻引擎的错,而是这些网站没有选对 ASP 所致。

误区6、中英文混合检索词是不被支援的
    当你输入“MP3” 时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜寻引擎上更多的网页搜寻服务不能对“甲A”、“F-1一级方程式”等中英混合查询作出恰当的反应。然而搜寻技术并非对此无能为力,百度搜寻就完全解决了中英文混查的问题。

误区7、中文搜寻引擎的相关性无法与英文相媲美
    中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配要想提高中文搜寻的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜寻也有许多英文搜寻望尘莫及之处,如中文网页极少有针对搜寻引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完
    全适用于中文。中文搜寻的相关性完全可以与英文媲美。百度搜寻使用了目前国际上先进的搜寻引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜寻的相关性问题。

误区8、用户要找的信息在网上不存在
    目前大多数的中文搜寻引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了可是随着中国网际网路的繁荣、政府、企业和各行各业对网际网路的重视,以及大量风险投资的进入,中文网际网路的内容日益丰富,网页数量激增。
    另外很多搜寻引擎不支援新的中文编码标准,如“GBK”。例如“朱基”的“”字不在 GB2312 的字符集中,但是却在 GBK 编码中可以找到,许多搜寻引擎由于不支援 GBK,因而用“朱基”无法找到有关的网页。所以许多网上存在的资讯在当前的主要搜寻引擎中无法找到很可能是因为您用的搜寻引擎不好,而不是因为您要找的资讯在网上不存在。

误区9、搜寻引擎数据更新最快要 30 天
    对于那些依靠海外伺服器提供检索的网站来说,这也许是对的网易掌门丁磊辞职的消息传出后的三个星期内,各大门户网站的网页搜寻服务都无法查到任何相关的网页。但这绝不是说及时更新数据是做不到的。百度搜寻就巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。

误区10、搜寻引擎不能查找动态生成的网页
    目前世界上没有一家主要的搜寻引擎支援动态网页,因为大多数负责搜寻网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大势所趋,ASP、PHP、JSP 等编程工具日益流行,解决动态网页查找的问题已经是人心所向。百度在这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜寻引擎来查找动态生成的网页已经不是神话。
发表于 2004-6-27 07:44:15 | 显示全部楼层
其實最大的問題是中文搜寻引擎
因為在電腦眼裡,只Search Codes,並無語文之分
中文搜寻引擎一詞似是大陸廠商常用
似有誤導之嫌
 楼主| 发表于 2004-6-27 16:41:48 | 显示全部楼层
在台湾,是怎么称呼的?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-12 16:50 , Processed in 0.123512 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表