您现在的位置: 无忧电子商务网 >> 信息学院 >> 程序开发 >> php >> 正文

搜索引擎技术核心揭密(PHP版)

作者:佚名    信息学院来源:整理    点击数:    更新时间:2008-2-2 我要参与讨论

  ult中
result_string=join(" ", result); file://将数组$result合并成字符串,各数组元素之间用空格粘和
... file://进一步处理
}
?>


  上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟Google的查询命令,保证搜索结果的正确性。

  对Google的分析

  为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除Google搜索结果的台头和脚注,包括一个Google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记,替换成我们想要的格式。

  要做到这一点,我们必须仔细地分析Google搜索结果的HTML源码,找到其中的规律。不难发现,在Google的搜索结果的正文总是包含在源码的第一个

  标记和倒数第二个

  标记之间,并且倒数第二个

  标记后紧跟table字符,而且这个组合“

  以下所有程序均依次接续在上文程序的“进一步处理”处。

  result_string = strstr( result_string, " ");
  file://取 result_string从第一个开始后的字符串,以去除Google台头
  position= strpos( result_string," table符号的位置
  result_string= substr( result_string,0, position);//截取第一个table符号之前的字符串,以去除脚注


  应用与实现

  现在我们已经得到有用的HTML源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开:

  语法:explode(string separator, string string);

  返回一个数组,按separator切开后的各个小字串被保存在数组中。

  于是:

result_array=explode(" ", result_string); file://用字串" "把结果切开


  我们就得到一个数组 result_array,其中每个元素都是一个搜索结果条目。我们所要做的仅仅是研究每个条目及其HTML显示格式代码,然后按要求替换就行了。下面用循环来处理 result_array中的每个条目。

for( i=0; i {
... file://处理每个条目
}


  对于每个条目,我们也很容易找到一些特点:每个条目都由标题、摘要、简介、类别、网址等组成,每个部分都换行,即包含
标记,于是再次分割:(以下处理程序放在上文的循环中)

every_item=explode(" ", result_array[ i]);


  这样我们得到一个数组 every

上一页  [1] [2] [3] 下一页

在google里搜索更多搜索引擎技术核心揭密(PHP版)

Google
Web www.51ec.org
【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
我来说两句 对此文章发表了评论
  昵 称: *必填    ·注册用户·
  评 分: 1分 2分 3分 4分 5分     严禁发表危害国家安全、政治、黄色淫秽等内容的评论,用户需对自己在使用本网站服务过程中的行为承担法律责任。本站管理员有权保留或删除评论内容,评论内容只代表机友个人观点,与本网站立场无关。  
评 论
内 容

 
评论列表 (最新 评论仅限网友观点!)

供求信息




| 设为首页 | 加入收藏 | 关于我们 | 广告服务 | 联系方式 | 友情链接 | 版权申明