村汉的菜地: 从くるねこ大和的blog主页上抓取5喵anime对应的漫画

くるねこ的作者把漫画都发布在自己的blog上面去了，只要通过blog的站内搜索或者google的制定site搜索标题，即可搜出来想要看的某话漫画。
那么，为啥要抓取呢，搜出来后直接保存htm不久完事了么。
嘛，但是我是想只保存图片文件，打成包，这样比较有漫画味；
然而为了实现前面说的打包的想法，必须对网页上的图片整理，
而作者的blog系统是用随机生成文件名来处理blogger上传的文件的，这意味着什么？
由浏览器保存回来的图片是乱序的，不能直接打包，得先按顺序重命名文件。
这个工作量想想都害怕，如果不能自动的话，干脆放弃算了。

于是，很自然地，把python搬出来写脚本咯
ver1：
1、浏览器保存htm
2、写脚本抓取<src>标签，并提取其中的文件链接
3、按顺序把第1步保存下来的jpg重命名

不过，既然是写脚本了，那么能不人工插手的就不要插手了，htm不必保存，直接用脚本抓就是了
于是ver2：
1、抓取htm内容，虽然页面源代码内容不少，但是我只要抓取<src>标签的链接即可。
2、依次把抓取到的链接指向的jpg文件下载回来，编号好，命名好，保存到本地。

脚本功能非常简单，20行的样子。

不过，搜索漫画对应帖子链接的工作还是得手动，哎。
(要不要写个抓作者blog的rss的脚本来抓最新的漫画呢 -_,- 不过，作者blog除了喵的漫画，更多的是琐事日记)
另外，也偷了下懒，没加入多线下载功能，1话就有需要下载20个jpg左右，顺序列队一个个抓还真是慢。（网络渣你就认了吧）

村汉的菜地

2010年3月15日星期一

从くるねこ大和的blog主页上抓取5喵anime对应的漫画

没有评论:

发表评论