您现在的位置: 无忧电子商务网 >> 信息学院 >> 站长助手 >> 其它 >> 正文

网络搜索与信息收集路路通

作者:佚名    信息学院来源:互联网    点击数:    更新时间:2006-4-11 我要参与讨论

  现代人的生活已经越来越离不开互联网络了。上网从聊天室里的胡侃乱吹、大小论坛里的灌水拍砖到垃圾伊妹儿的满天飞舞、即时通讯工具软件的红红火火再到各种电子媒体的相继问世、网络学校的日新月异,网络正在对我们的生活产生不可小视的影响。各种网络泡沫消失殆尽之后,带给人们更多理性的思考,带来了网络上的一片欣欣向荣的新景观。我们正在迎接一个全新的网络新世界。

  感觉到了吗?我们的语言中已经由于网络而增加了许多新鲜的血液,我们的通讯交流由于网络而变得更加方便快捷,我们的知识的更新速度也由于网络而加快了不知有几十倍……可以豪不夸张的说,已经有越来越多的人对网络有着很强的依赖性,如果没有网络,他们将不知道该怎样去生活!

  网络是一个工具。也可以说网络像“海洋”,它是“知识的海洋”,是现代人获取知识的另一个重要而便捷的途径。但这些知识固然是客观存在的,只有正确的掌握了打开这座知识宝藏的金钥匙的人才能充分的享受宝藏带给我们的快乐。换句话说,如果去主动地用有效的方法获取这些知识,对中学生来说,应该比网络本身的内容更加重要。本专题将结合作者本人多年的网络生活经历,与同学们一起探讨一下这方面的技巧和方法。

  一、掌握必要的“搜索”技巧是获取信息的重要手段

  初入网络的朋友,大多像一只无头的苍蝇,在网络这个无边无际的虚拟空间中乱撞。这种漫无目的的“看网”,可能会因为遇到某个心动的网站而兴奋不已,也可能会为紧紧张张地忙活了半天而一无所获感到沮丧万分。不过,这却是初学者必须经过的一道坎。如果你能掌握正确的搜索技巧,带着一定的问题和疑问去上网,访问网络后的结果肯定会与众不同。

  1. 认识搜索引擎

  什么是搜索引擎?它是如何工作的?还是让我们先从搜索引擎的历史说起吧。1990年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。后来,程序员们开发出了一个名叫“spider”(蜘蛛)的“Robot”(机器人)程序,它能自动以人类无法达到的速度不断重复地在网络上检索信息。这种行为很像一只蜘蛛在INTERNET这张巨大的信息网上爬来爬去,因此,spider程序便由此而来。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来F和发展为也能够捕获网址(URL)。

  随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。

  概括的说:搜索引擎就是WWW网络环境中的一套信息检索系统。它通常有两种不同的工作方式:一种是分类目录型的检索,把因特网中的资源收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类,人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;另一种是基于关键词(Keyword)的检索,这种方式用户可以用逻辑组合方式输入各种关键词,搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。

  搜索引擎其实也就是一个网站,只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把INTERNET上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。随着因特网信息按几何级数增长,这些搜索引擎利用其内部的一个spider程序,自动搜索网站每一页的开始,并把每一页上代表超级链接的所有词汇放入一个数据库,供用户来查询。

  一个搜索引擎大致由三部分组成。第一部分是搜索器,也就是上面提到的Spider程序。它定期的自动爬到各个网站上,把网页抓下来,并顺着上面的链接,象蜘蛛一样爬开去,持续不断的抓取网页。第二部分是索引器,它把蜘蛛程序抓来网页进行分析,按照关键词句进行索引,并存入服务器的数据库中。第三部分是面向用户的检索器,它接收用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户。

  因此,准确的说,当我们利用搜索引擎搜索信息时,并不是真正在网上进行搜索,而是在检索那个由蜘蛛程序自动建立起来的庞大的数据库。由于各大搜索引擎的数据库的自动更新周期是不同的,从几天到几周甚至一个月都有可能,因此,选择合适的搜索引擎显得尤为重要。同时,有时也可能遇到用搜索引擎搜索到的网页无法打开的情况,了解了它的工作原理,这一点也就不会大惊小怪了。
  2. 选择合适的搜索引擎

  尽管网上有大量的搜索引擎可供选择,但时下搜索效率等各方面都比较让人满意的并不多。相比之下,源自辛弃疾的《青玉案》中的著名诗句“众里寻她千百度”的中文搜索引擎“百度”以及简体中文的google应该是大家的首选。其中百度(www.baidu.com)主要提供基于“关键词”的检索方式,而且在这方面做得非常有特色。而google则不仅可以支持基于“关键词”的搜索网页搜索方式,同时也是分类目录式的搜索的典范。

  3. 搜索引擎的使用技巧

  千万不要以为有了搜索引擎就能搜到一切,如何正确的运用搜索引擎也是一门学问。目前,著名的搜索引擎百度正在网上进行“百度搜索大富翁”的游戏(http://game.baidu.com/index.php),你只要每天花上几分钟时间,利用搜索引擎回答5道题目,既可以学习到许多有用的搜索技巧,还有机会赢取掌上电脑、数码相机、手机等巨额奖品,何乐而不为?下面谈谈本人在使用百度搜索引擎方面的一些方法和技巧。

  我们使用搜索引擎,大多数情况下都是使用一些关键词去搜索引擎中进行搜索的。因此,搜索的技巧之一就是关键词的合理选取。什么叫“关键词”?其实就是你输入在搜索引擎的搜索框中的文字,也就是你命令搜索引擎要寻找的东西。千万不要以为关键词就是三两个字才叫“词”,有时用一句话或一个短语作为关键词往往可以收到奇效。因为相同的词汇可以用在许多不同的场合,仅仅使用一个或几个单词搜索到的结果肯定会是一片汪洋,这样的搜索结果没有任何作用。除了关键词的长度,合理的选择关键词也是非常重要的。对于同样的搜索需求,两种不同的关键词搜索策略可能得到相差悬殊的结果。比如:有这样的一个问题:内蒙古锡林郭勒盟苏尼特右旗,1985年出土的距今1.2亿年的“_________恐龙”是目前中国发现的最大的恐龙化石骨架。装架后体长22.4米,背高7米,抬头高12米。如果要求通过网上搜索后找到答案,你准备用什么样的关键词呢?是“内蒙古”,还是“恐龙化石”,抑或是将这两个关键词同时使用?无论你采用以上哪种方案去搜索,得到的结果都会有成千上万!但如果能够紧紧抓住“中国发现的最大的恐龙化石骨架”这句短语,以它为关键词来进行搜索的话,在百度和雅虎的搜索引擎上都只得到9个结果!找到这个问题的答案当然易如反掌了。
  其次,对于已经搜索到的网页,如果无法打开,八成是该网页已经被站长从网上删除了。而更让人难以接受的是,通过搜索引擎的对该页简要介绍,发现该页上正是自己苦苦找寻的结果,是不是就真的没有办法了呢?当然不是。如果你选择百度搜索引擎进行搜索,可以看出,在每个搜索结果后,都有“网页快照”和“网页预览”两个超级连接。在这种情况下,直接打开该网页可能打不开,但点击“网页快照”却可以看到该网页的快照内容。因为网页快照保存了该网站以前的信息,网页快照不仅下载速度极快,而且搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。 网页快照不仅可以让你看到一些根本就不存在了的网页上的内容,对仍然可以打开的网页,使用网页快照也有许多好处。因为,快照页面的首部都有一个与关键词相关的页内链接,直接指向该页中你所关心的重要内容。同时,网页内的所有关键词都被用不同的颜色进行了区分,是不是比直接打开网页后自己用眼睛在该页上查找要方便得多,尤其是内容多的网页,有时你会感觉这些关键词是在与你玩“捉迷藏”的游戏。

  另外,使用多关键词、使用减法搜索——包含A但不包含B关键字、并行搜索——包含A或者包含B,和在结果中查询等高级搜索技巧,也是提高搜索水平的有效途径。具体用法大家可以到http://www.baidu.com/search/jiqiao.html去查阅“百度搜索帮助”。这里要特别指出的是:百度的确是一个非常优秀的搜索引擎。当你选取的关键字找不到你所要的结果时,很可能是关键字选取不当。怎么办?需要重新选取关键字,大多数情况下,百度都已经明白了你的意思,看!在该页的下方,百度已经为你另外选取了几组关键词,用它们来作关键词搜索试试?这就是相关搜索。

  大多数情况下,使用以上技巧就可以完成日常获取知识的需要,但在某些特殊的场合,比如:想知道我们的“阿紫”编辑在“中学生电脑”的网站内的知名度,这时,就只需要在一个网站(www.yesnew.com)内进行搜索。部分网站提供了这种功能,但绝大多数网站都没有这种站内搜索的功能。怎么办?还是用“百度”就可以搞定。百度支持在网站内进行搜索,这时,只需要在它的搜索输入框内按“关键词 site:网址或域名”的格式输入关键字,再点击“开始搜索”按钮即可。例如:用“阿紫 site:www.yesnew.com”为关键字可以获得“阿紫”这个名字在该网站出现的频率;用“intel site:com.cn”可以在所有域名以“com.cn”结尾的网站内搜索和“intel”相关的资料。需要注意的是:“site:”后不能有“http://”前缀或“/”后缀,网站频道只局限于“频道名.域名”方式,不能是“域名/频道名”方式。
  4. 顺藤摸瓜式搜索方法与技巧

  前面已经讲过,由于搜索引擎的工作原理,一般都不可能利用搜索引擎搜索到最新最近的信息。而且,毕竟它是一个按一定算法编写的spider程序到网上搜索到结果,难免会遗失网上大量的信息。而各个搜索引擎所建立的数据库也是不大一样的。也就是说,用一个搜索引擎没有搜索到自己所要的信息的话,可以换一个搜索引擎再试试。除此之外,我本人在长期的搜索过程中,还总结出一套“顺藤摸瓜”式的搜索技巧。不敢独享,现介绍出来,与大家共享。


  一流的网站对于网页名称的设计也应该是一流的。虽然这些东西看似与用户无关。大家都知道,“洪恩在线”是一个以开展计算机普及教育的著名网站,它的“电脑乐园”小版块(http://www.hongen.com/pc/index.htm)是专门为各位初学电脑的同学们开办的。里面放置了专家们精心编写的各种软件的使用教程和操作技巧。如果你掌握了常见的一些英文单词或缩写(os:操作系统;oa:办公自动化;tools:工具;program:编程;newer:初学者;homepage:网页制作等),就可以根据其下某一栏目的网址(比如:办公软件的相关教程:http://www.hongen.com/pc/oa/index.htm),推断出其他各类栏目可能的网址(将该地址中的“os”更换成相应的单词即可)。再比如,有些网站中明明有某个网页,却没有在它的主页或其他页面中放置链接到该页面的超级链接,或者将该链接放在比较隐蔽的位置,想找到并打开这些网页是比较困难的。但如果我们善

[1] [2] 下一页

在google里搜索更多网络搜索与信息收集路路通

Google
Web www.51ec.org
  • 上一篇信息学院:

  • 下一篇信息学院:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    我来说两句 对此文章发表了评论
      昵 称: *必填    ·注册用户·
      评 分: 1分 2分 3分 4分 5分     严禁发表危害国家安全、政治、黄色淫秽等内容的评论,用户需对自己在使用本网站服务过程中的行为承担法律责任。本站管理员有权保留或删除评论内容,评论内容只代表机友个人观点,与本网站立场无关。  
    评 论
    内 容

     
    评论列表 (最新 评论仅限网友观点!)

    推荐文章
  • 此栏目下没有推荐信息学院
  • 热门文章
  • 此栏目下没有热点信息学院
  • 供求信息




    | 设为首页 | 加入收藏 | 关于我们 | 广告服务 | 联系方式 | 友情链接 | 版权申明