湘里妹子学术网

 找回密码
 注册
查看: 3017|回复: 0

中、港、台中文搜索引擎的发展

[复制链接]
发表于 2004-7-2 18:26:50 | 显示全部楼层 |阅读模式
文章主题: 中、港、台中文搜索引擎的发展
发表时间: 2001年09月08日 00时38分  
发表作者: 深圳科技信息网  
发表内容:
中、港、台中文搜索引擎的发展
作者:深圳市科技情报所 黄苏宁
来源:青藤书屋
2000.03.29

----------------------------------------------------------------------------------------

摘要:本文较详细地论述了中、港、台中文搜索引擎目前发展
的状况,比较了其不同的优势和存在的问题,提出了两岸三地
科技信息业共同携手发展高质量中文搜索引擎的建议。

关键词: 中港台 中文搜索引擎 互联网

  根据中国互联网络信息中心(CNNIC)1999 年 7 月对中国
大陆 Internet 发展状况的调查报告,其统计结果表明仅在中
国大陆,目前上网的计算机数就有 146 万台,用户已达 400 万
人,网站已有 9900 多个,这个数字还在不断地增长。目前,台
湾、香港和澳门的信息咨讯业都在飞速发展,网民队伍在迅速
扩大,据有关方面统计,台湾现有网民约 200 多万。随着互联
网上的中文信息日益增多,以中文为母语的两岸三地的网民队
伍的急剧扩大。为了更好地利用网上的中文信息资源,推动网
上检索技术的向前发展,两岸三地的科技信息工作者都在不懈
地努力,积极地研究和开发中文搜索引擎,并取得了显着的成
绩。

中、港、台中文搜索引擎发展现状

 1、 中文搜索引擎发展速度惊人

  从 1994 年 4 月中国科学院网首次与 Internet 网互联到现在
仅 5 年,在这短短的 5 年间里,大陆中文搜索引擎的发展速度
惊人台湾和香港加入互联网的时间较早,建立和发展中文搜
索引擎的历史较长,其发展速度也很快。据网路灯塔的统计数
据:截止到 99 年 12 月份,搜集到已建立的大大小小的各种类
型中文搜索引擎共有 280 个,大陆有 74 个,台湾有 89 个、香
港有 30 个,国外有 33 个,专题站点有 54 个,新的站点还在不
断的增加,仅 99 年 3 至 12 月,平均每月就新增站点 4 个,主
要均为大陆和台湾站点。中国大陆的中文搜索引擎以北京大学
计算机系开发的天网、北京爱特信公司推出的搜狐、广州网易
计算机系统公司研制的网易、四通利方公司今年推出的新浪搜
索、长通飞华信息技术公司制作的常青藤、中国科技信息研究
所和万方数据公司开发的北极星和网络指南针等为代表台湾
的中文搜索引擎以 Openfind、蕃薯藤、哇塞、奇摩、和盖世引
擎等为代表香港的中文搜索引擎以香港中文大学设计的茉莉
之窗、香港电讯的网上行、香港优联克公司与北京优联克科技
开发有限公司共同开发的悠游和添达等为代表国际上一些大
型的搜索引擎公司也纷纷加入了中文搜索引擎市场,最具有代
表性的是 Alta Vista、Yahoo 中文简体版和繁体版还有
Excite。

2、 中文搜索引擎的收录范围日趋广泛

  在 Internet 网上中文资源不断增多的环境下,两岸三地中
文搜索引擎的收录范围日趋广泛,内容越来越丰富。大陆的天
网目前收录有 112 万万维网页和 9 万新闻组文章(香港),搜
狐收录 5 万多个中文网站,日访问达 70 万网页读数和 10 万人
次台湾的 openfind、蕃薯藤、盖世引擎、哇塞的收录范围都
非常广,不仅囊括了台湾的咨讯,还涵盖了大陆、香港、新加
坡、日本、韩国、东南亚以及全世界的中文资料,有网页数百
万,网站数以万计香港的茉莉之窗收录网页 83.8 万多,添达
收录香港网址 1.3 万多Yahoo 收录了全球上万个中文网站,
而 Alta Vista 则收录了全球范围的 200 多万的简体和繁体网页,
在同类网站中名列前茅。若将中国大陆与台湾的中文搜索引擎
相比较,总的来说台湾的收录范围更广,内容更丰富,更新更
快捷。

3、 中文搜索引擎的功能不断完善

  与国外的西文搜索引擎相比较,中文搜索引擎特别是大陆
开发的普遍均存在质量较低、查询方法简单、功能不全等问
题,但经过几年的发展,其功能正在不断完善。出现了一些较
高质量的中文搜索引擎,这些引擎既有网站检索,也有全文检
索既有简单查询,也有支持复杂条件的高级查询既有新闻
组和 FIP 检索,也有全新智能型的搜寻功能既可支持简体中
文 GB 码,又可支持繁体中文 BIG5 码既有详细完整的信息反
馈结果,还可提供各种服务分类既科学合理,又详尽规范。
  例如:大陆开发的天网,现已具备有全文检索、新闻组和
FIP 检索,查询方式有简单查询和高级复杂查询,有 BIG5 界面
和英文界面,检索速度快,反馈信息完整,如有序号、标题、
文摘、URL、更新日期、长度和代码等而搜狐则采用汉化的
Search '97 全文搜索引擎、友好的中文界面、独特的中文分词及
符合中文的拟人思维,可提供分类目录浏览、网站检索和新闻
检索。台湾的 0penfind 具有分类目录、网站检索、全文检索、
台湾 BBC 目录和 BBS 文章检索、线上新闻搜寻,最近又推出
了智能型全球网址搜索服务,可进行简繁体中文检索,功能非
常强大,检索结果完善准确蕃薯藤是台湾最知名的搜索引擎
站点之一,99 年 8 月份刚刚作了更新和调整,其网页分类更加
合理完善,有强大的关键词检索功能,可用通配符“*”代替不
确定的文字进行模糊查询,还可提供整合型的 All-In-One 查询
表单,既连上了其他常用的搜索引擎,一次性输入关键词后,
可任意选择不同的工具进行查寻,同时还有 BBS 目录检索等各
种功能哇塞推出“三合一”的中文网页目录,用户可利用
BIG5、GIF 中文目录及英文查寻任何所需的资料。Yahoo 中文
版的检索功能更强大,有分类目录、网站检索、全文检索,分
类科学准确,可支持简体版和繁体版。Alta Vista 的主要功能是
进行网页全文检索,不仅可在简体中文和繁体中文页面中进行
查询,也可在英文页面上进行中文检索。

4、建立了专题性的中文搜索引擎

  综合性的搜索引擎收录各方面、各学科、各行业的信息,
而专题性的搜索引擎则是为了专门收录某一行业、某一主题和
某一地区的信息而建立,非常实用,如有商务查询、企业查
询、人名查询、电子邮件地址查询和专业信息查询等等,这些
专题搜索引擎在西文搜索工具中非常常见。中文搜索引擎现也
开始出现了为某一专题信息而建立的站点,目前共有专题站点
54 个,例如大陆的工商导航专收工商企业网站,壹网专提供
广州地区的信息,眼科搜索专搜索有关眼科疾病和治疗的网页
信息,东方星专为少年儿童提供娱乐和知识信息台湾的台湾
工商名录专门查询台湾工商企业,奇摩气象台专提供气象信
息,iRose 专为女性设置,网路小博士专为全球儿童开设香港
的香港资讯中心只收录香港各政府行政机关部门的网址,添达
专收香港地区的网页。

5、中文搜索引擎推出了一些特别的服务

  除了浏览和检索查询之外,中文搜索引擎还设置了其他一
些特别的服务。例如,大陆的天网和台湾的 Todo 均可提供电子
邮件来函查询信息服务,用户可通过向搜索引擎发送电子邮件
的方式,查找所需的信息最近大陆推出的 263 搜索还可提供
“推送”服务,通过订阅,Maillinglist 将信息包推送给用户
有的搜索引擎还提供线上翻译、线上新闻搜寻和网页制作等其
他一些服务。

中文搜索引擎目前存在的问题

  笔者通过近几年对中文搜索引擎的使用,以及进行的一些
研究分析,认为中、港、台中文搜索引擎目前主要存在这几个
方面的问题。

1、查询方式较单一,查准率不高

  中文搜索引擎特别是大陆开发的站点,一般只有分类目录
浏览和简单的关键词网站或全文检索,缺乏其他复杂高级的精
确查询方式。同时,大多数的关键词检索模式只配置了一个简
单的查询框,往往查询到大量无关的信息,查准率不高。例
如,要在一些中文搜索引擎查寻同时出现“深圳”和“科技”
的网站或网页,当输入关键词时,搜索出来的结果不尽人意,
有的只能查到“深圳”的信息,而有的则只找到带“科技”或
仅带有单个字的网页,无法进行匹配查寻,查准率不高。

2、质量良莠不齐,功能不够齐全

  除了一些质量较高,功能较完善的中文搜索引擎外,其余
多数功能不够齐全。首先是收录范围小,一般来说大陆的网站
以收集大陆的资源为主,而台湾的网站则以收录台湾的为主,
同时,由于不能进行多种类型的检索,查询的质量不高再则
就是一些站点只能支持一种版本字体,或简体、或繁体有的
查询信息反馈不清晰,查询结果不完善还有的服务比较单
一,只是一般的简单查询,按分类目录,层层往下查,既费时
费力,又易出现漏检和不全的情况。

3、中文编码简繁体之间的转换不便

  由于中国几千年文化传统的习惯以及中文语言的特点,中
文有简体码(GB)和繁体码(BIG5)之分。大陆的中文搜索引
擎一般采用简体码,而港台的则多用繁体码,只有少数可兼顾
简繁体。除了 95、98 Windows 带的 IE 4.0 或 IE 5.0 有简繁体选
择外,大陆使用的电脑,其系统基本装的都是简体版,若想要
浏览和查询繁体版中文信息,必须再装一套支持繁体版的中文
软件,例如南极星、两岸通等等。但有的软件只有显示汉字功
能,而没有输入功能,这种转换对于电脑专业人士和熟悉电脑
操作的人来说,不成问题,而对于一般的用户来说,则非常不
便,是件麻烦事。

4、专业性的搜索引擎较少

  目前,无论是大陆或是台湾开发的中文搜索引擎,大多数
是综合性的、区域性的或专题性的,专业性的大型搜索引擎很
少,而在西文搜索引擎中,有不少专业搜索引擎,例如美国
的医学文献数据搜索引擎 Mendine PubMed 等。专业搜索引擎能
比较集中、迅速、准确和全面地反映某一行业的技术和发展情
况,对开展科技信息的服务和咨询很有用处。

5、部分中文搜索引擎的更新速度慢

  目前,网上的中文信息资源与西文相比少许多,只占千分
之一左右,这已相对滞后。但往往有的中文搜索引擎还不注意
更新,一些过期或已失效的网页仍放在上面有的又没显示网
页的更新时间,使用户不知所措。例如,大陆某一中文网站收
录网页 10 余万,但其中有不少失效的网页,更新非常慢。这
样,易使用户产生错觉,感到网上中文信息不仅少,而且还陈
旧。

6、缺乏统一的协调与合作,重复建设较多

  中国大陆在加入国际互联网短短的 5 年里,就发展了各种
大大小小的中文搜索引擎 70 多个,目前还在不断地增加,除了
一些收录丰富、分类科学、功能较齐全和质量优良的外,其余
的并不是那么完善的,有的甚至质量低劣。由于没有统一的规
划协调,各搞一套,开发分散,重复现象多,造成了人力、物
力和财力的浪费。

对两岸三地携手发展高质量中文搜索引擎的建议

  全世界有超过五分之一的人口在使用中文,随着网上中文
信息的不断增多和使用中文的网民队伍不断扩大,中文搜索引
擎的开发越来越得到重视。网上资源既来源于中国大陆,也来
源于港澳台、东南亚及其海外的华人地区。我们一方面要提供
更多的中文信息上网,另一方面要更加充分地利用现有网上的
中文信息。笔者认为,两岸三地的中文信息各有特色,特别是
科技信息非常丰富,大家应携起手来,共同研究和发展高质量
的中文搜索引擎,以便更快、更好、更准确和更方便地充分利
用网上的中文科技信息资源。

1、携手建立高质量的中文搜索引擎

  两岸三地的人民都是炎黄的子孙,有着共同的文化传统、
语言特点和文字使用习惯,彼此能很好地沟通和交流。同时,
现已建立了一些比较好的中文搜索引擎。特别是台湾,信息资
讯业发展的比较早,研究开发的时间比较长,有许多丰富的经
验。台湾的一些搜索引擎公司曾与国际上的大搜索引擎公司有
过很好的合作,开发了功能非常优秀的搜索工具。若两岸三地
能共同携手、精诚合作、优势互补、加强交流,就能建立收录
内容更丰富、分类更科学、功能更强大、使用更方便和服务更
多样化的高质量的中文搜索引擎,更能适合于广大网民的使
用。
  目前,两岸三地已有一些着名的搜索引擎公司开始携手合
作例如,中国最知名的网络服务商网易 99 年 7 月 12 日在京
宣布:与香港电讯的网上行、台湾的奇摩站两岸三地强强联
合,结成华网联盟,这三家网站结成联盟后,总浏览人数将超
过 1,200 万次/天,这一全新计划将满足广大用户对中文网站
的需求,并推动了大中华地区相互间的网上浏览,提高了用户
进行网上查询的效率。

2、尽快实现中文简繁体之间的自动转换

  当前网上中文信息存在编码不一致的问题,既简体 GB 和
繁体 BIG5。有的中文搜索引擎只能查询某一种编码的中文信
息,特别是在大陆,一般的用户主要是使用简体来浏览和检索
信息,用繁体不便,即使是简繁体兼容,转换也比较麻烦,特
别是繁体汉字的输入不便,应当尽快实现中文简繁体之间的自
动转换(有的中文搜索引擎在这方面做的较好),使得两岸三
地的用户能非常方便、自如、轻松地浏览和查询网上的所有中
文信息。

3、建立大型的专业中文搜索引擎

  国外有许多大型的西文专业搜索引擎,如 Pharm Web(药
品信息搜索引擎)这种检索工具由于专业性强、针对性高、
比较详细完整,可为其行业的科技发展提供资讯和资料服务,
对科技发展有很大的促进作用。在目前的情况下,应当选择一
些具有代表性的专业或高新技术产业,建立大型的、内容丰富
的、适合两岸三地广大用户共同使用的中文搜索引擎,以促进
科技信息的交流和高科技的发展。

4、中文搜索引擎要从单一化向集成化发展

  大多数的中文搜索引擎都是单一的、独立的、互不相关
的,当在一个搜索引擎进行关键词检索过程中,如找不到满意
的结果时,就得退出转向第 2 个、再转向第 3 个……这样既费
时又费力。为能快捷、全面、准确地搜索到所需的中文信息,
建议开发建立集成化的中文搜索引擎,例如类似台湾蕃薯藤的
整合型 ALL-In-One 查询表单,当输入关键词后,用户可选择任
意的搜索工具进行查询,这样既可节省搜索时间,又提高了工
作效率。

5、开发出优秀的多媒体中文搜索引擎

  世界多媒体技术在不断发展,越来越多的国家开发出可查
寻图象、声音、图片和电影的西文搜索引擎,动态的和有声的
多媒体搜索引擎日趋普遍。例如,最近瑞典一家公司研制推出
的新搜索引擎 Allt.com,被认为是第五代搜索引擎,可进行电
子邮件、电影、声音、音乐和图片的搜索,功能强大、反馈结
果准确。但是,目前不论是大陆、台湾或是香港,仍没有开发
成功较好的中文多媒体搜索引擎,建议两岸三地的科技信息业
同行携手合作,共同努力,开发和研制出优秀的中文多媒体搜
索引擎。


参考文献:
1.中国互联网络信息中心《中国 Internet 发展现状统计报告》
(1999/7)
2.殷雪松、徐斌《漫谈中文搜索工具》 《情报理论与实践》
No.2,1999 (22-25)
3.李名智《中文搜索引擎发展的现状、问题及对策》 《中国
信息导报》No.2,1999 (30-32)
4.李爱红《网络搜索引擎的比较研究》 《中国信息导报》
No.1,1999 (25-26)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2025-5-2 04:04 , Processed in 0.099672 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表