2010年3月31日星期三
2010年3月28日星期日
四疊半神話大系 第一话 四叠半恋爱的妨碍者 (1)
写在前面的话:
去年考完一级以后,开始了Doraemon和君届的翻译工作。在这个过程中,切身地体会到,社长那句话:“过了1级也只是刚够资格给我抽而已”。这并非是社长自负或者看不起人,事实却是是这样。能看懂文字,听明白语音,这并不代表就能做出合格的翻译。本来就不擅长写作,上大学后更是与咱们那博大精深的汉语拉开了不少距离。几个月以来的翻译体会最深的就是翻译难以表达准确表达清晰。为了寻回那遗失多年的语感,于是,有了这么个《四叠半神话大系》的翻译计划。
计划坚持每天翻译2000字的量,然后周日汇总起来校对一遍,往blog上发布。这样,每次大概会贴出来1w字左右的翻译。而用word统计了一下,日文原文是20w字,如果这个计划能坚持下来的话,大概要半年才能完成吧。
google docs:
正文:
森見登美彦
四疊半神話大系
目 录
第一话 四叠半恋爱的妨碍者
第二话 四叠半自虐性的代理代理战争
第三话 四叠半的甜美生活
最终话 八十日间四叠半一周
第一话 四叠半恋爱的妨碍者
直到大学三年春为止的这两年间,我可以断言没有做过任何一件有实际意义的事情。健全的异性交往、精进学业、锻炼身体之类的,这些为了成为有用的社会人才的一切准备都与我擦身而过,却被异性孤立、荒废学业、身体衰弱这些让人避之则吉之物看中纠缠上了,究竟是为什么呢。
这责任一定要追究到底,但是,责任又在谁的身上呢。
去年考完一级以后,开始了Doraemon和君届的翻译工作。在这个过程中,切身地体会到,社长那句话:“过了1级也只是刚够资格给我抽而已”。这并非是社长自负或者看不起人,事实却是是这样。能看懂文字,听明白语音,这并不代表就能做出合格的翻译。本来就不擅长写作,上大学后更是与咱们那博大精深的汉语拉开了不少距离。几个月以来的翻译体会最深的就是翻译难以表达准确表达清晰。为了寻回那遗失多年的语感,于是,有了这么个《四叠半神话大系》的翻译计划。
计划坚持每天翻译2000字的量,然后周日汇总起来校对一遍,往blog上发布。这样,每次大概会贴出来1w字左右的翻译。而用word统计了一下,日文原文是20w字,如果这个计划能坚持下来的话,大概要半年才能完成吧。
google docs:
正文:
森見登美彦
四疊半神話大系
目 录
第一话 四叠半恋爱的妨碍者
第二话 四叠半自虐性的代理代理战争
第三话 四叠半的甜美生活
最终话 八十日间四叠半一周
第一话 四叠半恋爱的妨碍者
直到大学三年春为止的这两年间,我可以断言没有做过任何一件有实际意义的事情。健全的异性交往、精进学业、锻炼身体之类的,这些为了成为有用的社会人才的一切准备都与我擦身而过,却被异性孤立、荒废学业、身体衰弱这些让人避之则吉之物看中纠缠上了,究竟是为什么呢。
这责任一定要追究到底,但是,责任又在谁的身上呢。
2010年3月15日星期一
从くるねこ大和的blog主页上抓取5喵anime对应的漫画
くるねこ的作者把漫画都发布在自己的blog上面去了,只要通过blog的站内搜索或者google的制定site搜索标题,即可搜出来想要看的某话漫画。
那么,为啥要抓取呢,搜出来后直接保存htm不久完事了么。
嘛,但是我是想只保存图片文件,打成包,这样比较有漫画味;
然而为了实现前面说的打包的想法,必须对网页上的图片整理,
而作者的blog系统是用随机生成文件名来处理blogger上传的文件的,这意味着什么?
由浏览器保存回来的图片是乱序的,不能直接打包,得先按顺序重命名文件。
这个工作量想想都害怕,如果不能自动的话,干脆放弃算了。
于是,很自然地,把python搬出来写脚本咯
ver1:
1、浏览器保存htm
2、写脚本抓取<src>标签,并提取其中的文件链接
3、按顺序把第1步保存下来的jpg重命名
不过,既然是写脚本了,那么能不人工插手的就不要插手了,htm不必保存,直接用脚本抓就是了
于是ver2:
1、抓取htm内容,虽然页面源代码内容不少,但是我只要抓取<src>标签的链接即可。
2、依次把抓取到的链接指向的jpg文件下载回来,编号好,命名好,保存到本地。
脚本功能非常简单,20行的样子。
不过,搜索漫画对应帖子链接的工作还是得手动,哎。
(要不要写个抓作者blog的rss的脚本来抓最新的漫画呢 -_,- 不过,作者blog除了喵的漫画,更多的是琐事日记)
另外,也偷了下懒,没加入多线下载功能,1话就有需要下载20个jpg左右,顺序列队一个个抓还真是慢。(网络渣你就认了吧)
那么,为啥要抓取呢,搜出来后直接保存htm不久完事了么。
嘛,但是我是想只保存图片文件,打成包,这样比较有漫画味;
然而为了实现前面说的打包的想法,必须对网页上的图片整理,
而作者的blog系统是用随机生成文件名来处理blogger上传的文件的,这意味着什么?
由浏览器保存回来的图片是乱序的,不能直接打包,得先按顺序重命名文件。
这个工作量想想都害怕,如果不能自动的话,干脆放弃算了。
于是,很自然地,把python搬出来写脚本咯
ver1:
1、浏览器保存htm
2、写脚本抓取<src>标签,并提取其中的文件链接
3、按顺序把第1步保存下来的jpg重命名
不过,既然是写脚本了,那么能不人工插手的就不要插手了,htm不必保存,直接用脚本抓就是了
于是ver2:
1、抓取htm内容,虽然页面源代码内容不少,但是我只要抓取<src>标签的链接即可。
2、依次把抓取到的链接指向的jpg文件下载回来,编号好,命名好,保存到本地。
脚本功能非常简单,20行的样子。
不过,搜索漫画对应帖子链接的工作还是得手动,哎。
(要不要写个抓作者blog的rss的脚本来抓最新的漫画呢 -_,- 不过,作者blog除了喵的漫画,更多的是琐事日记)
另外,也偷了下懒,没加入多线下载功能,1话就有需要下载20个jpg左右,顺序列队一个个抓还真是慢。(网络渣你就认了吧)
订阅:
博文 (Atom)
