RSS订阅采集之路

当我接触了“Google阅读器”后,我是深深地沉醉在其中了——建站之前,我上网就是为了进它看最新的资讯,都是自己添加的,浏览的时候真是如饥似渴啊。每每淘到好的订阅源,我总是兴奋不已。

这次是因为发现了一个强大的列表,我才想起要写一篇文章记念一下的,所以先就事论事,再简单回味过去的经历。

现成的RSS订阅源大全

只要在Google阅读器里混了些日子的,估计都能感受到这第1页和第2页的分量。至少对于我来说,那些订阅数(查看“供稿信息”)成千上万的RSS种子,是积累了好些日子才凑齐的,结果到这里,不但都有了,还有我不知道的;但凡能直接访问的,PR值都不一般了,几乎起码都是5啊!

虽然我已经积累了不少订阅,但我仍然一直为找不到更多的精品RSS订阅而烦恼:总是局限在那几个领域内,对于个人的知识库系统来说,未免太狭隘了。如今,能发现这样一张由广大GR用户间接投票选出的排行榜,既是求之不得,更是得来全不费工夫啊。

稍微分析一下这两页,也可以发现不少有意思的现象:

  • 大伙都是资深网民,只要是“好”的,只管拿来。不过,在常人看来,这些“打不开”、“不存在”的网站登上了首页,一定是不可思议的。
  • 大家都是很关心时政的嘛。Twitter机器人rtmeme和翻墙先锋GFW BLOG分列一二位,这兄弟俩对于政治问题的讨论从来就没有消停过。
  • 其次才想到娱乐。大名鼎鼎的草榴社区顶在了第三位,果然,“爱情事业”的地位不可撼动,往后才依次出现笑话、摄影、动漫。
  • 我热爱的足球没想到能上第2页,还有两条记录。老大哥竟然是网易,这似乎既在情理之中,又在意料之外。我对网易的印象来源于“新闻老衲社”,“有态度的新闻”背后,隐藏着豪情万丈的盖楼盛景。
  • 编程语言中,竟是JAVA凸现第2页。

可能还是敏感词太多,翻到第4页时,连接被经典地重置了,奇怪的是后来不知为何总可以顺利打开。

我觉得肯定有人会问,为什么不贴出链接。也好,我就多说两句。它本身关键字就多,能存活实属不易,如果大家都去,树大必定招风,最后对彼此都是一种损失。但是,既然我能够发现它,那别人肯定也能发现,那一天的到来只是时间问题。鉴于此,我就留一个门槛吧,让真正需要的人自己去取:这张表源自一个Chrome浏览器插件,该插件用以显示Google阅读器里文章的源页面评论,当评论不能按设定的过滤规则显示时,用户可以点击它提供的超链接来提交定制申请。

订阅之初

从这一行,就是我回顾过去的开端了。

与其说我是GR的重度用户,倒不如说我是QQ邮箱的忠实粉丝。这是国内的和谐环境使然的,毕竟07年刚接触网络时,我的头脑里只有百度和腾讯。

邮箱一直用着很顺手,忽然有一天它推出了“阅读”功能。在邮箱的这个页面里,我可以不留痕迹地浏览所有QQ好友的空间文章。我都不记得那时候有没有“个人中心”了,总之在邮箱里一目十行,远比一个个打开好友的空间并在杂七杂八的页面元素中痛苦地看原文要享受得多。

又过了一些时日,“阅读空间”可以订阅名人博客了。刚开始没在意,后来看它页面越来越丰富,应该是逐渐积聚了人气,我便试探性地多看了几眼。后来,抵制不住推荐列表的诱惑,我的第一批“订阅”诞生了。我很清楚地记得,我当时很享受那种“秀才不出门,便知天下事”的感觉。

直到进了大学,离开了电脑,带上了手机,我这才慢慢发现:

  • 只要不是QQ相册(QQ空间的图片都存在这里)的图片,一律都不显示;
  • 某些文章的段落划分也消失,现在我明白这应该是消除<p>、<br />等格式以节省流量的做法;(月光博客的文章既没图片,文字又杂糅在一起,那是什么样的感觉?)
  • 一些无关紧要的词,总是用星号代替。(一开始以为是GFW的魔爪,后来知道的多了,才知道这是腾讯内部的“绿爸”啊)

订阅晋级

在使用“阅读空间”的同时,印象中似乎是由于订阅的文章中对GR有所提及(乖乖,攻势都到这份上了!),我便早早对GR有所耳闻。

由于日渐厌恶腾讯的顽劣行径,我转而投向Google Reader的怀抱。未曾想,惊喜是接踵而来:

  • 图片根据手机屏幕大小自动优化后显示,除非网络原因,否则绝对不会不显示;
  • 在手机上,原有排版总是尽可能地没有被打破,该分段的分段,有颜色的字也显示颜色,引用内容也会退两格显示等等;
  • 没有“关键字屏蔽”这个概念,何人何事一清二楚;
  • 能够标注喜欢、收藏,并在此基础上结合已订阅的种子给出推荐的条目;
  • 即使网站被墙,也能正常浏览其发布的文章;
  • 就算原文被删除,GR里也保留了发布之初的文字记录,所以只要内容发布过,就逃不过GR的法眼,有了这个,甚至有时候都用不着网页快照了。

在那个令人欣喜的推荐功能帮助下,我构建了第二批“订阅”。

可惜事与愿违,我永远都不会想到,Google会选择退出了大陆市场。国庆期间,伟大的防火墙干脆就放弃嗅探明文,进而间歇性屏蔽Google各服务的https连接了。原以为过了敏感时期一切都会恢复平静,可恶的是,这一次的干扰行动是没有倒计时的。

人在做,天在看,这种卑鄙的伎俩是阻挡不了人民的求知欲望的,家中常备GFW BLOG,预防长城感冒啊。电脑上修改hosts文件至特定IP,手机上DIY一个定制版OPM,科学上网无烦忧。

回到正题。访问一个个订阅的页面,一阵“搜刮”友情链接之风让我给吹了起来,就这样,我的第三批“订阅”名单出炉了。

如今,踏入“大全”之中,第四批“订阅”结果指日可待。

RSS订阅采集之路》上有6个想法

  1. 呵呵,我很少订阅,一般不会去看文章。国内的好博客真的屈指可数,也就无需去订阅了,想看的时候,直接去就OK了。在这里,特别想说说月光博客。本人是实用派的,特别讨厌月光博客里面这种类型的文章,就是一些什么东西出来了,什么东西消失了,看看就完了,完了就忘了,简直就是在浪费时间。胡扯一些东西,文章中扯过来扯过去的,到头来,什么也没扯出来。。无语。名人博客更是如此。

    • 就我的认识而言,我觉得知识的获取途径无外乎两种,一种是需要的时候自己去找,另一种是自己送上门来。这里讨论后者。

      能够在阅读器里直接了当地看到正文(包括被和谐的),还可以仅仅通过滚动鼠标滚轮就翻看以往的文章,觉得不耐烦时(主要是聚合类的网站)还可以借助辅助工具筛选浏览量靠前的进行阅读,这些无疑能省掉不少时间。
      此外,我订阅的初衷就是扩充知识面(经常Google文章中不了解的地方),要想掌握具体的东西,显然不行。

    • 开放投稿之前,该博客的文章我都是兴致勃勃地阅读着,现在它的情况正如你所言,以致无聊了我才想起还有这么个博客,类似地,开放审核的糗事百科当年也是一块精神的圣地。

    • 这已经是很久以前的事情,你还是自己去安装一个 Chrome 浏览器的扩展程序进行探索吧,名字好像叫“原文评论”。更简单的办法是直接搜索图中列出的订阅的关键字。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注