昨天,今天,明天,每天的每天,你是否都多懂得一点点...

星期一, 二月 18, 2008

Sohu 社区的贴子真难下

首先,它第一页到第二页数字跳了12

http://club.women.sohu.com/r-marriage-5363013-0-4115-0.html
http://club.women.sohu.com/r-marriage-5363013-12-4115-0.html

还好,反正是12的倍数,于是把链接全打出来放在一个文件里,再导入迅雷下载就好了。

没想到的是,下下来的三百多个文件里面,居然一点正文都没有。。。昏。。。本应该是正文的地方,找到了这个

<script>show_item("7576592","body");</script>
<script>show_item("7576592","body1");</script>
<script>show_item("7576592","sign");</script>

正文都在JS文件里,疯了。

找遍所有的JS文件都没有找到正文。。。

于是用浏览器打开一篇文章,然后跟踪HTTP头,被我找到正文的JS了。原来正文的JS的扩展文是HTML,而不是JS,隐藏得真好。。。

其实这些JS文件和上面的数字是有关的。。。



http://mirror8.club.sohu.com/readjsnew-marriage-7576592-0.html

所以,就是把原文件的这些数字抓出来。然后重组成一个完整的网址,把这些JS文件下下来就可以了。

下下来的JS文件里其实全是变量,后期处理不作介绍。

没有评论:

其它博客地址

此博客的同步博客地址: http://fengnz.wordpress.com
这里进入我的MSN SPACE.