湘里妹子学术网

 找回密码
 注册
查看: 2651|回复: 0

「活的老鼠」不好抓动态网页给搜索技术带来困扰

[复制链接]
发表于 2004-6-24 17:34:14 | 显示全部楼层 |阅读模式
文章主题: 「活的老鼠」不好抓动态网页给搜索技术带来困扰
发表时间: 2001年09月09日 06时57分  
发表作者: 计算机世界  
发表内容:
「活的老鼠」不好抓动态网页给搜索技术带来困扰
● 丁一
来源:青藤书屋
01-6-21 上午 09:25:45

-------------------------------------------------------------------------------------
何谓动态网页

所谓动态网页是指在WWW服务器上并不存在实际的一个页面
供服务器读取,与之相对应。它在服务器上实际以一个可执行
的程序文件存在,这个程序文件可以产生HTML格式的信息输
出,通常人们把这样的程序叫做CGI程序。当服务器接收到客
户端对一个动态网页的访问请求时,Web服务器通过调用相应
的程序文件即CGI程序文件,并把包含在Http请求中的程序参数
传递给CGI程序,程序按照调用参数实时地产生HTML输出,
Web服务器再将程序产生的HTML输出返回给用户。下面是一个
表示动态网页的URL的例子:
http://search.sina.com.cn/cgi-bin/search/search.cgi?
_searchkey=html&_ss=sina
在这个例子中,我们实际上是在search.sina.com.cn(新浪网搜索
引擎)中进行「html」一词的搜索,URL中的CGI程序路径是
「/cgi-bin/search/search.cgi」,而我们通过该URL传递给CGI程序
的参数是「_searchkey=html&_ss=sina」。
有所得必有所失
相对于WWW中的动态页面来说,传统的静态网页是由网页编
写人员按照HTML语言编写存放在WWW服务器上的实际页面文
件,当我们访问这个静态页面时,WWW服务器在接收到由客
户端发送的Http请求之后,按照客户端的要求读取相应目录中
静态网页的HTML内容并将其返回给客户。
以往的网页只有文字和图象,静态而乏味。现在不同了,动态
网页实时地生成HTML网页信息,尤其是通过CGI程序与Web数
据库等的结合,人们可以通过一个CGI程序生成我们习惯的
HTML文件帮助用户方便地在WWW这个庞大的数据库系统中访
问数据信息,而这些任务如果要利用人工编写的HTML生成,
其工作量是不可想像的。由于动态网页给人们带来了极大的方
便,它在近几年来被广泛应用,同时也促进了WWW的迅猛发
展。但在动态网页迅速发展的同时我们也付出了代价。
动态网页带来搜索困扰
下面我们将具体介绍动态网页对搜索引擎带来的困扰,并谈谈
搜索引擎对动态网页的解决方案。
在早期搜索引擎系统设计过程中,对动态网页大多没有进行特
殊处理,而是对所有的URL一视同仁,但在实际运行过程中,
发现越来越多的动态网页给搜索技术的实现带来很大困扰。
对于WWW服务器来说,对于用户每一个动态网页的请求,服
务器都必须调用CGI程序,等待CGI程序的输出,然后才能够向
客户返回页面结果。而无论是服务器对CGI程序的调用,还是
CGI程序的运行都需要花费CPU、内存等系统资源。这样,对于
发送动态网页请求的客户端来说,由于程序的运行需要时间,
客户端需要较长时间的等待。尤其是当WWW服务器处于繁忙
状态时,客户需要等待更长的时间才能得到所需的动态页面资
源。对于服务端来说,如果服务器上运行的CGI程序没有较好
的程序结构的话,则程序在服务器端还会造成更大的影响。
具体到搜索引擎,对于搜索器即收集系统来说,系统的目的是
要实现快速、广泛、高质量的信息收集。在系统自动收集的过
程中,频繁地发送请求生成动态网页会造成两个方面的副作
用:其一,在WWW服务器端引起本系统和其他访问该服务器
资源的用户的竞争,给服务器造成较大的系统压力,导致服务
器效率急剧下降甚至瘫痪,对其网络造成冲击;其二,很多的
动态网页由于程序运行效率不高,加之有时网络情况恶化,从
我们发送出Http请求到最终收到服务器结果页面返回,我们经
常要等待较长的时间,甚至有可能在系统的超时时间已经到
达,我们还不能够得到所需的资源。在这样的情况下,如果系
统频繁地为处理动态网页请求所占用,不仅会极大地影响系统
对静态网页的收集效率,同时也对网站造成了巨大的压力,使
网站其他服务能力大打折扣。
特殊处理动态网页
由此,为了提高系统的运行效率和减小系统对网络的冲击,我
们必须对动态网页进行特殊地处理。在搜索引擎搜索器中,我
们依靠URL路径中的「?」符号去断定一个网页是否属于动态网
页,在进行URL调度时,我们对动态网页的权值重新加以考虑
适当进行降权处理,并将每次调度出的动态URL限制在一定的
百分比之下。按照这种方法,我们可以有效地提高静态页面在
URL调度中的优先权,从而降低了动态网页对系统造成的负面
影响。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-10 04:46 , Processed in 0.107831 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表