]> git.netwichtig.de Git - user/henk/code/ruby/rbot.git/blob - data/rbot/plugins/rss.rb
Initial implementation of proper caching based on last-modified and etag HTTP headers
[user/henk/code/ruby/rbot.git] / data / rbot / plugins / rss.rb
1 #-- vim:sw=2:et\r
2 #++\r
3 #\r
4 # RSS feed plugin for RubyBot\r
5 # (c) 2004 Stanislav Karchebny <berkus@madfire.net>\r
6 # (c) 2005 Ian Monroe <ian@monroe.nu>\r
7 # (c) 2005 Mark Kretschmann <markey@web.de>\r
8 # (c) 2006 Giuseppe Bilotta <giuseppe.bilotta@gmail.com>\r
9 #\r
10 # Licensed under MIT License.\r
11 \r
12 require 'rss/parser'\r
13 require 'rss/1.0'\r
14 require 'rss/2.0'\r
15 require 'rss/dublincore'\r
16 # begin\r
17 #   require 'rss/dublincore/2.0'\r
18 # rescue\r
19 #   warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
20 # end\r
21 \r
22 class ::String\r
23   def shorten(limit)\r
24     if self.length > limit\r
25       self+". " =~ /^(.{#{limit}}[^.!;?]*[.!;?])/mi\r
26       return $1\r
27     end\r
28     self\r
29   end\r
30 \r
31   def riphtml\r
32     self.gsub(/<[^>]+>/, '').gsub(/&amp;/,'&').gsub(/&quot;/,'"').gsub(/&lt;/,'<').gsub(/&gt;/,'>').gsub(/&ellip;/,'...').gsub(/&apos;/, "'").gsub("\n",'')\r
33   end\r
34 \r
35   def mysqlize\r
36     self.gsub(/'/, "''")\r
37   end\r
38 end\r
39 \r
40 class ::RssBlob\r
41   attr :url\r
42   attr :handle\r
43   attr :type\r
44   attr :watchers\r
45 \r
46   def initialize(url,handle=nil,type=nil,watchers=[])\r
47     @url = url\r
48     if handle\r
49       @handle = handle\r
50     else\r
51       @handle = url\r
52     end\r
53     @type = type\r
54     @watchers = watchers\r
55   end\r
56 \r
57   def watched?\r
58     !@watchers.empty?\r
59   end\r
60 \r
61   def watched_by?(who)\r
62     # We need to check bot 'who' itself and the String form, because rss\r
63     # watches added before the new Irc framework represented watchers as\r
64     # Strings whereas they are now Channels.\r
65     #\r
66     @watchers.include?(who) || @watchers.include?(who.to_s) \r
67   end\r
68 \r
69   def add_watch(who)\r
70     if watched_by?(who)\r
71       return nil\r
72     end\r
73     # TODO FIXME? should we just store watchers as Strings instead?\r
74     # This should then be @watchers << who.downcase\r
75     @watchers << who\r
76     return who\r
77   end\r
78 \r
79   def rm_watch(who)\r
80     # See comment to watched_by?\r
81     #\r
82     @watchers.delete(who)\r
83     @watchers.delete(who.to_s)\r
84   end\r
85 \r
86   def to_a\r
87     [@handle,@url,@type,@watchers]\r
88   end\r
89 \r
90   def to_s(watchers=false)\r
91     if watchers\r
92       a = self.to_a.flatten\r
93     else\r
94       a = self.to_a[0,3]\r
95     end\r
96     a.compact.join(" | ")\r
97   end\r
98 end\r
99 \r
100 class RSSFeedsPlugin < Plugin\r
101   BotConfig.register BotConfigIntegerValue.new('rss.head_max',\r
102     :default => 30, :validate => Proc.new{|v| v > 0 && v < 200},\r
103     :desc => "How many characters to use of a RSS item header")\r
104 \r
105   BotConfig.register BotConfigIntegerValue.new('rss.text_max',\r
106     :default => 90, :validate => Proc.new{|v| v > 0 && v < 400},\r
107     :desc => "How many characters to use of a RSS item text")\r
108 \r
109   BotConfig.register BotConfigIntegerValue.new('rss.thread_sleep',\r
110     :default => 300, :validate => Proc.new{|v| v > 30},\r
111     :desc => "How many seconds to sleep before checking RSS feeds again")\r
112 \r
113   @@watchThreads = Hash.new\r
114   @@mutex = Mutex.new\r
115 \r
116   def initialize\r
117     super\r
118     kill_threads\r
119     if @registry.has_key?(:feeds)\r
120       @feeds = @registry[:feeds]\r
121     else\r
122       @feeds = Hash.new\r
123     end\r
124     rewatch_rss\r
125   end\r
126 \r
127   def name\r
128     "rss"\r
129   end\r
130 \r
131   def watchlist\r
132     @feeds.select { |h, f| f.watched? }\r
133   end\r
134 \r
135   def cleanup\r
136     kill_threads\r
137   end\r
138 \r
139   def save\r
140     @registry[:feeds] = @feeds\r
141   end\r
142 \r
143   def kill_threads\r
144     @@mutex.synchronize {\r
145       # Abort all running threads.\r
146       @@watchThreads.each { |url, thread|\r
147         debug "Killing thread for #{url}"\r
148         thread.kill\r
149       }\r
150       @@watchThreads = Hash.new\r
151     }\r
152   end\r
153 \r
154   def help(plugin,topic="")\r
155     case topic\r
156     when "show"\r
157       "rss show #{Bold}handle#{Bold} [#{Bold}limit#{Bold}] : show #{Bold}limit#{Bold} (default: 5, max: 15) entries from rss #{Bold}handle#{Bold}; #{Bold}limit#{Bold} can also be in the form a..b, to display a specific range of items"\r
158     when "list"\r
159       "rss list [#{Bold}handle#{Bold}] : list all rss feeds (matching #{Bold}handle#{Bold})"\r
160     when "watched"\r
161       "rss watched [#{Bold}handle#{Bold}] : list all watched rss feeds (matching #{Bold}handle#{Bold})"\r
162     when "add"\r
163       "rss add #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : add a new rss called #{Bold}handle#{Bold} from url #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
164     when /^(del(ete)?|rm)$/\r
165       "rss del(ete)|rm #{Bold}handle#{Bold} : delete rss feed #{Bold}handle#{Bold}"\r
166     when "replace"\r
167       "rss replace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : try to replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold}); only works if nobody else is watching it"\r
168     when "forcereplace"\r
169       "rss forcereplace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
170     when "watch"\r
171       "rss watch #{Bold}handle#{Bold} [#{Bold}url#{Bold} [#{Bold}type#{Bold}]] : watch rss #{Bold}handle#{Bold} for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
172     when /(un|rm)watch/\r
173       "rss unwatch|rmwatch #{Bold}handle#{Bold} : stop watching rss #{Bold}handle#{Bold} for changes"\r
174     when "rewatch"\r
175       "rss rewatch : restart threads that watch for changes in watched rss"\r
176     else\r
177       "manage RSS feeds: rss show|list|watched|add|del(ete)|rm|(force)replace|watch|unwatch|rmwatch|rewatch"\r
178     end\r
179   end\r
180 \r
181   def report_problem(report, e=nil, m=nil)\r
182     if m && m.respond_to?(:reply)\r
183       m.reply report\r
184     else\r
185       warning report\r
186     end\r
187     if e\r
188       debug e.inspect\r
189       debug e.backtrace.join("\n") if e.respond_to?(:backtrace)\r
190     end\r
191   end\r
192 \r
193   def show_rss(m, params)\r
194     handle = params[:handle]\r
195     lims = params[:limit].to_s.match(/(\d+)(?:..(\d+))?/)\r
196     debug lims.to_a.inspect\r
197     if lims[2]\r
198       ll = [[lims[1].to_i-1,lims[2].to_i-1].min,  0].max\r
199       ul = [[lims[1].to_i-1,lims[2].to_i-1].max, 14].min\r
200       rev = lims[1].to_i > lims[2].to_i\r
201     else\r
202       ll = 0\r
203       ul = [[lims[1].to_i-1, 0].max, 14].min\r
204       rev = false\r
205     end\r
206 \r
207     feed = @feeds.fetch(handle, nil)\r
208     unless feed\r
209       m.reply "I don't know any feeds named #{handle}"\r
210       return\r
211     end\r
212 \r
213     m.reply "lemme fetch it..."\r
214     title = items = nil\r
215     @@mutex.synchronize {\r
216       title, items = fetchRss(feed, m)\r
217     }\r
218     return unless items\r
219 \r
220     # We sort the feeds in freshness order (newer ones first)\r
221     items = freshness_sort(items)\r
222     disp = items[ll..ul]\r
223     disp.reverse! if rev\r
224 \r
225     m.reply "Channel : #{title}"\r
226     disp.each do |item|\r
227       printFormattedRss(feed, item, {:places=>[m.replyto],:handle=>nil,:date=>true})\r
228     end\r
229   end\r
230 \r
231   def itemDate(item,ex=nil)\r
232     return item.pubDate if item.respond_to?(:pubDate) and item.pubDate\r
233     return item.date if item.respond_to?(:date) and item.date\r
234     return ex\r
235   end\r
236 \r
237   def freshness_sort(items)\r
238     notime = Time.at(0)\r
239     items.sort { |a, b|\r
240       itemDate(b, notime) <=> itemDate(a, notime)\r
241     }\r
242   end\r
243 \r
244   def list_rss(m, params)\r
245     wanted = params[:handle]\r
246     reply = String.new\r
247     @@mutex.synchronize {\r
248       @feeds.each { |handle, feed|\r
249         next if wanted and !handle.match(wanted)\r
250         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})"\r
251         (reply << " (watched)") if feed.watched_by?(m.replyto)\r
252         reply << "\n"\r
253       }\r
254     }\r
255     if reply.empty?\r
256       reply = "no feeds found"\r
257       reply << " matching #{wanted}" if wanted\r
258     end\r
259     m.reply reply\r
260   end\r
261 \r
262   def watched_rss(m, params)\r
263     wanted = params[:handle]\r
264     reply = String.new\r
265     @@mutex.synchronize {\r
266       watchlist.each { |handle, feed|\r
267         next if wanted and !handle.match(wanted)\r
268         next unless feed.watched_by?(m.replyto)\r
269         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})\n"\r
270       }\r
271     }\r
272     if reply.empty?\r
273       reply = "no watched feeds"\r
274       reply << " matching #{wanted}" if wanted\r
275     end\r
276     m.reply reply\r
277   end\r
278 \r
279   def add_rss(m, params, force=false)\r
280     handle = params[:handle]\r
281     url = params[:url]\r
282     unless url.match(/https?/)\r
283       m.reply "I only deal with feeds from HTTP sources, so I can't use #{url} (maybe you forgot the handle?)"\r
284       return\r
285     end\r
286     type = params[:type]\r
287     if @feeds.fetch(handle, nil) && !force\r
288       m.reply "There is already a feed named #{handle} (URL: #{@feeds[handle].url})"\r
289       return\r
290     end\r
291     unless url\r
292       m.reply "You must specify both a handle and an url to add an RSS feed"\r
293       return\r
294     end\r
295     @@mutex.synchronize {\r
296       @feeds[handle] = RssBlob.new(url,handle,type)\r
297     }\r
298     reply = "Added RSS #{url} named #{handle}"\r
299     if type\r
300       reply << " (format: #{type})"\r
301     end\r
302     m.reply reply\r
303     return handle\r
304   end\r
305 \r
306   def del_rss(m, params, pass=false)\r
307     feed = unwatch_rss(m, params, true)\r
308     if feed.watched?\r
309       m.reply "someone else is watching #{feed.handle}, I won't remove it from my list"\r
310       return\r
311     end\r
312     @@mutex.synchronize {\r
313       @feeds.delete(feed.handle)\r
314     }\r
315     m.okay unless pass\r
316     return\r
317   end\r
318 \r
319   def replace_rss(m, params)\r
320     handle = params[:handle]\r
321     if @feeds.key?(handle)\r
322       del_rss(m, {:handle => handle}, true)\r
323     end\r
324     if @feeds.key?(handle)\r
325       m.reply "can't replace #{feed.handle}"\r
326     else\r
327       add_rss(m, params, true)\r
328     end\r
329   end\r
330 \r
331   def forcereplace_rss(m, params)\r
332     add_rss(m, params, true)\r
333   end\r
334 \r
335   def watch_rss(m, params)\r
336     handle = params[:handle]\r
337     url = params[:url]\r
338     type = params[:type]\r
339     if url\r
340       add_rss(m, params)\r
341     end\r
342     feed = nil\r
343     @@mutex.synchronize {\r
344       feed = @feeds.fetch(handle, nil)\r
345     }\r
346     if feed\r
347       @@mutex.synchronize {\r
348         if feed.add_watch(m.replyto)\r
349           watchRss(feed, m)\r
350           m.okay\r
351         else\r
352           m.reply "Already watching #{feed.handle}"\r
353         end\r
354       }\r
355     else\r
356       m.reply "Couldn't watch feed #{handle} (no such feed found)"\r
357     end\r
358   end\r
359 \r
360   def unwatch_rss(m, params, pass=false)\r
361     handle = params[:handle]\r
362     unless @feeds.has_key?(handle)\r
363       m.reply("dunno that feed")\r
364       return\r
365     end\r
366     feed = @feeds[handle]\r
367     if feed.rm_watch(m.replyto)\r
368       m.reply "#{m.replyto} has been removed from the watchlist for #{feed.handle}"\r
369     else\r
370       m.reply("#{m.replyto} wasn't watching #{feed.handle}") unless pass\r
371     end\r
372     if !feed.watched?\r
373       @@mutex.synchronize {\r
374         if @@watchThreads[handle].kind_of? Thread\r
375           @@watchThreads[handle].kill\r
376           debug "rmwatch: Killed thread for #{handle}"\r
377           @@watchThreads.delete(handle)\r
378         end\r
379       }\r
380     end\r
381     return feed\r
382   end\r
383 \r
384   def rewatch_rss(m=nil, params=nil)\r
385     kill_threads\r
386 \r
387     # Read watches from list.\r
388     watchlist.each{ |handle, feed|\r
389       watchRss(feed, m)\r
390     }\r
391     m.okay if m\r
392   end\r
393 \r
394   private\r
395   def watchRss(feed, m=nil)\r
396     if @@watchThreads.has_key?(feed.handle)\r
397       report_problem("watcher thread for #{feed.handle} is already running", nil, m)\r
398       return\r
399     end\r
400     @@watchThreads[feed.handle] = Thread.new do\r
401       debug "watcher for #{feed} started"\r
402       oldItems = []\r
403       firstRun = true\r
404       failures = 0\r
405       loop do\r
406         begin\r
407           debug "fetching #{feed}"\r
408           title = newItems = nil\r
409           @@mutex.synchronize {\r
410             title, newItems = fetchRss(feed)\r
411           }\r
412           unless newItems\r
413             debug "no items in feed #{feed}"\r
414             failures +=1\r
415           else\r
416             debug "Checking if new items are available for #{feed}"\r
417             if firstRun\r
418               debug "First run, we'll see next time"\r
419               firstRun = false\r
420             else\r
421               otxt = oldItems.map { |item| item.to_s }\r
422               dispItems = newItems.reject { |item|\r
423                 otxt.include?(item.to_s)\r
424               }\r
425               if dispItems.length > 0\r
426                 debug "Found #{dispItems.length} new items in #{feed}"\r
427                 # When displaying watched feeds, publish them from older to newer\r
428                 dispItems.reverse.each { |item|\r
429                   @@mutex.synchronize {\r
430                     printFormattedRss(feed, item)\r
431                   }\r
432                 }\r
433               else\r
434                 debug "No new items found in #{feed}"\r
435               end\r
436             end\r
437             oldItems = newItems.dup\r
438           end\r
439         rescue Exception => e\r
440           error "Error watching #{feed}: #{e.inspect}"\r
441           debug e.backtrace.join("\n")\r
442           failures += 1\r
443         end\r
444 \r
445         seconds = @bot.config['rss.thread_sleep'] * (failures + 1)\r
446         seconds += seconds * (rand(100)-50)/100\r
447         debug "watcher for #{feed} going to sleep #{seconds} seconds.."\r
448         sleep seconds\r
449       end\r
450     end\r
451   end\r
452 \r
453   def printFormattedRss(feed, item, opts=nil)\r
454     places = feed.watchers\r
455     handle = "::#{feed.handle}:: "\r
456     date = String.new\r
457     if opts\r
458       places = opts[:places] if opts.key?(:places)\r
459       handle = opts[:handle].to_s if opts.key?(:handle)\r
460       if opts.key?(:date) && opts[:date]\r
461         if item.respond_to?(:pubDate) \r
462           if item.pubDate.class <= Time\r
463             date = item.pubDate.strftime("%Y/%m/%d %H.%M.%S")\r
464           else\r
465             date = item.pubDate.to_s\r
466           end\r
467         elsif  item.respond_to?(:date)\r
468           if item.date.class <= Time\r
469             date = item.date.strftime("%Y/%m/%d %H.%M.%S")\r
470           else\r
471             date = item.date.to_s\r
472           end\r
473         else\r
474           date = "(no date)"\r
475         end\r
476         date += " :: "\r
477       end\r
478     end\r
479     title = "#{Bold}#{item.title.chomp.riphtml}#{Bold}" if item.title\r
480     desc = item.description.gsub(/\s+/,' ').strip.riphtml.shorten(@bot.config['rss.text_max']) if item.description\r
481     link = item.link.chomp if item.link\r
482     places.each { |loc|\r
483       case feed.type\r
484       when 'blog'\r
485         @bot.say loc, "#{handle}#{date}#{item.category.content} blogged at #{link}"\r
486         @bot.say loc, "#{handle}#{title} - #{desc}"\r
487       when 'forum'\r
488         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
489       when 'wiki'\r
490         @bot.say loc, "#{handle}#{date}#{item.title} has been edited by #{item.dc_creator}. #{desc} #{link}"\r
491       when 'gmame'\r
492         @bot.say loc, "#{handle}#{date}Message #{title} sent by #{item.dc_creator}. #{desc}"\r
493       when 'trac'\r
494         @bot.say loc, "#{handle}#{date}#{title} @ #{link}"\r
495         unless item.title =~ /^Changeset \[(\d+)\]/\r
496           @bot.say loc, "#{handle}#{date}#{desc}"\r
497         end\r
498       else\r
499         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
500       end\r
501     }\r
502   end\r
503 \r
504   def fetchRss(feed, m=nil)\r
505     begin\r
506       # Use 60 sec timeout, cause the default is too low\r
507       # Do not use get_cached for RSS until we have proper cache handling\r
508       # xml = @bot.httputil.get_cached(feed.url,60,60)\r
509       xml = @bot.httputil.get_cached(feed.url, 60, 60)\r
510     rescue URI::InvalidURIError, URI::BadURIError => e\r
511       report_problem("invalid rss feed #{feed.url}", e, m)\r
512       return\r
513     rescue => e\r
514       report_problem("error getting #{feed.url}", e, m)\r
515       return\r
516     end\r
517     debug "fetched #{feed}"\r
518     unless xml\r
519       report_problem("reading feed #{feed} failed", nil, m)\r
520       return\r
521     end\r
522 \r
523     begin\r
524       ## do validate parse\r
525       rss = RSS::Parser.parse(xml)\r
526       debug "parsed #{feed}"\r
527     rescue RSS::InvalidRSSError\r
528       ## do non validate parse for invalid RSS 1.0\r
529       begin\r
530         rss = RSS::Parser.parse(xml, false)\r
531       rescue RSS::Error => e\r
532         report_problem("parsing rss stream failed, whoops =(", e, m)\r
533         return\r
534       end\r
535     rescue RSS::Error => e\r
536       report_problem("parsing rss stream failed, oioi", e, m)\r
537       return\r
538     rescue => e\r
539       report_problem("processing error occured, sorry =(", e, m)\r
540       return\r
541     end\r
542     items = []\r
543     if rss.nil?\r
544       report_problem("#{feed} does not include RSS 1.0 or 0.9x/2.0", nil, m)\r
545     else\r
546       begin\r
547         rss.output_encoding = 'UTF-8'\r
548       rescue RSS::UnknownConvertMethod => e\r
549         report_problem("bah! something went wrong =(", e, m)\r
550         return\r
551       end\r
552       rss.channel.title ||= "Unknown"\r
553       title = rss.channel.title\r
554       rss.items.each do |item|\r
555         item.title ||= "Unknown"\r
556         items << item\r
557       end\r
558     end\r
559 \r
560     if items.empty?\r
561       report_problem("no items found in the feed, maybe try weed?", e, m)\r
562       return\r
563     end\r
564     return [title, items]\r
565   end\r
566 end\r
567 \r
568 plugin = RSSFeedsPlugin.new\r
569 \r
570 plugin.map 'rss show :handle :limit',\r
571   :action => 'show_rss',\r
572   :requirements => {:limit => /^\d+(?:\.\.\d+)?$/},\r
573   :defaults => {:limit => 5}\r
574 plugin.map 'rss list :handle',\r
575   :action => 'list_rss',\r
576   :defaults =>  {:handle => nil}\r
577 plugin.map 'rss watched :handle',\r
578   :action => 'watched_rss',\r
579   :defaults =>  {:handle => nil}\r
580 plugin.map 'rss add :handle :url :type',\r
581   :action => 'add_rss',\r
582   :defaults => {:type => nil}\r
583 plugin.map 'rss del :handle',\r
584   :action => 'del_rss'\r
585 plugin.map 'rss delete :handle',\r
586   :action => 'del_rss'\r
587 plugin.map 'rss rm :handle',\r
588   :action => 'del_rss'\r
589 plugin.map 'rss replace :handle :url :type',\r
590   :action => 'replace_rss',\r
591   :defaults => {:type => nil}\r
592 plugin.map 'rss forcereplace :handle :url :type',\r
593   :action => 'forcereplace_rss',\r
594   :defaults => {:type => nil}\r
595 plugin.map 'rss watch :handle :url :type',\r
596   :action => 'watch_rss',\r
597   :defaults => {:url => nil, :type => nil}\r
598 plugin.map 'rss unwatch :handle',\r
599   :action => 'unwatch_rss'\r
600 plugin.map 'rss rmwatch :handle',\r
601   :action => 'unwatch_rss'\r
602 plugin.map 'rss rewatch',\r
603   :action => 'rewatch_rss'\r
604 \r