2010年3月15日星期一

从くるねこ大和的blog主页上抓取5喵anime对应的漫画

くるねこ的作者把漫画都发布在自己的blog上面去了,只要通过blog的站内搜索或者google的制定site搜索标题,即可搜出来想要看的某话漫画。
那么,为啥要抓取呢,搜出来后直接保存htm不久完事了么。
嘛,但是我是想只保存图片文件,打成包,这样比较有漫画味;
然而为了实现前面说的打包的想法,必须对网页上的图片整理,
而作者的blog系统是用随机生成文件名来处理blogger上传的文件的,这意味着什么?
由浏览器保存回来的图片是乱序的,不能直接打包,得先按顺序重命名文件。
这个工作量想想都害怕,如果不能自动的话,干脆放弃算了。

于是,很自然地,把python搬出来写脚本咯
ver1:
1、浏览器保存htm
2、写脚本抓取<src>标签,并提取其中的文件链接
3、按顺序把第1步保存下来的jpg重命名

不过,既然是写脚本了,那么能不人工插手的就不要插手了,htm不必保存,直接用脚本抓就是了
于是ver2:
1、抓取htm内容,虽然页面源代码内容不少,但是我只要抓取<src>标签的链接即可。
2、依次把抓取到的链接指向的jpg文件下载回来,编号好,命名好,保存到本地。

脚本功能非常简单,20行的样子。

不过,搜索漫画对应帖子链接的工作还是得手动,哎。
(要不要写个抓作者blog的rss的脚本来抓最新的漫画呢 -_,- 不过,作者blog除了喵的漫画,更多的是琐事日记)
另外,也偷了下懒,没加入多线下载功能,1话就有需要下载20个jpg左右,顺序列队一个个抓还真是慢。(网络渣你就认了吧)


没有评论:

发表评论