echo '</form>';
if (isset( keywords)) //提交后php会生成变量 kwywords,即要求下面的程序在提交后运行
{
urlencode( keywords); //对用户输入内容进行url编码
result=file("http://www.google.com/search?q=". keywords."&btng=google%cb%d1%cb%f7&hl=zh-cn&lr=");
//对查询语句进行变量替换,将查询结果保存在数组变量 result中
result_string=join(" ", result); //将数组$result合并成字符串,各数组元素之间用空格粘和
... //进一步处理
}
?>
上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行url编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟google的查询命令,保证搜索结果的正确性。
对google的分析
为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除google搜索结果的台头和脚注,包括一个google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的html格式标记,替换成我们想要的格式。
要做到这一点,我们必须仔细地分析google搜索结果的html源码,找到其中的规律。不难发现,在google的搜索结果的正文总是包含在源码的第一个<p>标记和倒数第二个<p>标记之间,并且倒数第二个<p>标记后紧跟table字符,而且这个组合“<p><table”在源码中也仅有一次,利用这个特点,我们可以这样去除google的台头和脚注。
以下所有程序均依次接续在上文程序的“进一步处理”处。
result_string = strstr( result_string, "<p>"); //取 result_string从第一个<p>开始后的字符串,以去除google台头
position= strpos( result_string,"<p>table符号的位置
result_string= substr( result_string,0, position);//截取第一个<p>table符号之前的字符串,以去除脚注
应用与实现
ok,现在我们已经得到有用的html源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用
分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开:
语法:explode(string separator, string string);
返回一个数组,按separator切开后的各个小字串被保存在数组中。
于是:
result_array=explo
if (isset( keywords)) //提交后php会生成变量 kwywords,即要求下面的程序在提交后运行
{
urlencode( keywords); //对用户输入内容进行url编码
result=file("http://www.google.com/search?q=". keywords."&btng=google%cb%d1%cb%f7&hl=zh-cn&lr=");
//对查询语句进行变量替换,将查询结果保存在数组变量 result中
result_string=join(" ", result); //将数组$result合并成字符串,各数组元素之间用空格粘和
... //进一步处理
}
?>
上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行url编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟google的查询命令,保证搜索结果的正确性。
对google的分析
为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除google搜索结果的台头和脚注,包括一个google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的html格式标记,替换成我们想要的格式。
要做到这一点,我们必须仔细地分析google搜索结果的html源码,找到其中的规律。不难发现,在google的搜索结果的正文总是包含在源码的第一个<p>标记和倒数第二个<p>标记之间,并且倒数第二个<p>标记后紧跟table字符,而且这个组合“<p><table”在源码中也仅有一次,利用这个特点,我们可以这样去除google的台头和脚注。
以下所有程序均依次接续在上文程序的“进一步处理”处。
result_string = strstr( result_string, "<p>"); //取 result_string从第一个<p>开始后的字符串,以去除google台头
position= strpos( result_string,"<p>table符号的位置
result_string= substr( result_string,0, position);//截取第一个<p>table符号之前的字符串,以去除脚注
应用与实现
ok,现在我们已经得到有用的html源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用
分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开:
语法:explode(string separator, string string);
返回一个数组,按separator切开后的各个小字串被保存在数组中。
于是:
result_array=explo
| 对此文章发表了评论 |
