]> git.netwichtig.de Git - user/henk/code/ruby/rbot.git/blob - data/rbot/plugins/rss.rb
Fix RSS plugin problems caused by watches created before the new Irc framework
[user/henk/code/ruby/rbot.git] / data / rbot / plugins / rss.rb
1 #-- vim:sw=2:et\r
2 #++\r
3 #\r
4 # RSS feed plugin for RubyBot\r
5 # (c) 2004 Stanislav Karchebny <berkus@madfire.net>\r
6 # (c) 2005 Ian Monroe <ian@monroe.nu>\r
7 # (c) 2005 Mark Kretschmann <markey@web.de>\r
8 # (c) 2006 Giuseppe Bilotta <giuseppe.bilotta@gmail.com>\r
9 #\r
10 # Licensed under MIT License.\r
11 \r
12 require 'rss/parser'\r
13 require 'rss/1.0'\r
14 require 'rss/2.0'\r
15 require 'rss/dublincore'\r
16 # begin\r
17 #   require 'rss/dublincore/2.0'\r
18 # rescue\r
19 #   warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
20 # end\r
21 \r
22 class ::String\r
23   def shorten(limit)\r
24     if self.length > limit\r
25       self+". " =~ /^(.{#{limit}}[^.!;?]*[.!;?])/mi\r
26       return $1\r
27     end\r
28     self\r
29   end\r
30 \r
31   def riphtml\r
32     self.gsub(/<[^>]+>/, '').gsub(/&amp;/,'&').gsub(/&quot;/,'"').gsub(/&lt;/,'<').gsub(/&gt;/,'>').gsub(/&ellip;/,'...').gsub(/&apos;/, "'").gsub("\n",'')\r
33   end\r
34 \r
35   def mysqlize\r
36     self.gsub(/'/, "''")\r
37   end\r
38 end\r
39 \r
40 class ::RssBlob\r
41   attr :url\r
42   attr :handle\r
43   attr :type\r
44   attr :watchers\r
45 \r
46   def initialize(url,handle=nil,type=nil,watchers=[])\r
47     @url = url\r
48     if handle\r
49       @handle = handle\r
50     else\r
51       @handle = url\r
52     end\r
53     @type = type\r
54     @watchers = watchers\r
55   end\r
56 \r
57   def watched?\r
58     !@watchers.empty?\r
59   end\r
60 \r
61   def watched_by?(who)\r
62     # We need to check bot 'who' itself and the String form, because rss\r
63     # watches added before the new Irc framework represented watchers as\r
64     # Strings whereas they are now Channels.\r
65     #\r
66     @watchers.include?(who) || @watchers.include?(who.to_s) \r
67   end\r
68 \r
69   def add_watch(who)\r
70     if watched_by?(who)\r
71       return nil\r
72     end\r
73     @watchers << who\r
74     return who\r
75   end\r
76 \r
77   def rm_watch(who)\r
78     # See comment to watched_by?\r
79     #\r
80     @watchers.delete(who)\r
81     @watchers.delete(who.to_s)\r
82   end\r
83 \r
84   def to_a\r
85     [@handle,@url,@type,@watchers]\r
86   end\r
87 \r
88   def to_s(watchers=false)\r
89     if watchers\r
90       a = self.to_a.flatten\r
91     else\r
92       a = self.to_a[0,3]\r
93     end\r
94     a.join(" | ")\r
95   end\r
96 end\r
97 \r
98 class RSSFeedsPlugin < Plugin\r
99   BotConfig.register BotConfigIntegerValue.new('rss.head_max',\r
100     :default => 30, :validate => Proc.new{|v| v > 0 && v < 200},\r
101     :desc => "How many characters to use of a RSS item header")\r
102 \r
103   BotConfig.register BotConfigIntegerValue.new('rss.text_max',\r
104     :default => 90, :validate => Proc.new{|v| v > 0 && v < 400},\r
105     :desc => "How many characters to use of a RSS item text")\r
106 \r
107   BotConfig.register BotConfigIntegerValue.new('rss.thread_sleep',\r
108     :default => 300, :validate => Proc.new{|v| v > 30},\r
109     :desc => "How many characters to use of a RSS item text")\r
110 \r
111   @@watchThreads = Hash.new\r
112   @@mutex = Mutex.new\r
113 \r
114   def initialize\r
115     super\r
116     kill_threads\r
117     if @registry.has_key?(:feeds)\r
118       @feeds = @registry[:feeds]\r
119     else\r
120       @feeds = Hash.new\r
121     end\r
122     rewatch_rss\r
123   end\r
124 \r
125   def watchlist\r
126     @feeds.select { |h, f| f.watched? }\r
127   end\r
128 \r
129   def cleanup\r
130     kill_threads\r
131   end\r
132 \r
133   def save\r
134     @registry[:feeds] = @feeds\r
135   end\r
136 \r
137   def kill_threads\r
138     @@mutex.synchronize {\r
139       # Abort all running threads.\r
140       @@watchThreads.each { |url, thread|\r
141         debug "Killing thread for #{url}"\r
142         thread.kill\r
143       }\r
144       @@watchThreads = Hash.new\r
145     }\r
146   end\r
147 \r
148   def help(plugin,topic="")\r
149     case topic\r
150     when "show"\r
151       "rss show #{Bold}handle#{Bold} [#{Bold}limit#{Bold}] : show #{Bold}limit#{Bold} (default: 5, max: 15) entries from rss #{Bold}handle#{Bold}; #{Bold}limit#{Bold} can also be in the form a..b, to display a specific range of items"\r
152     when "list"\r
153       "rss list [#{Bold}handle#{Bold}] : list all rss feeds (matching #{Bold}handle#{Bold})"\r
154     when "watched"\r
155       "rss watched [#{Bold}handle#{Bold}] : list all watched rss feeds (matching #{Bold}handle#{Bold})"\r
156     when "add"\r
157       "rss add #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : add a new rss called #{Bold}handle#{Bold} from url #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
158     when /^(del(ete)?|rm)$/\r
159       "rss del(ete)|rm #{Bold}handle#{Bold} : delete rss feed #{Bold}handle#{Bold}"\r
160     when "replace"\r
161       "rss replace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : try to replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold}); only works if nobody else is watching it"\r
162     when "forcereplace"\r
163       "rss forcereplace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
164     when "watch"\r
165       "rss watch #{Bold}handle#{Bold} [#{Bold}url#{Bold} [#{Bold}type#{Bold}]] : watch rss #{Bold}handle#{Bold} for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
166     when /(un|rm)watch/\r
167       "rss unwatch|rmwatch #{Bold}handle#{Bold} : stop watching rss #{Bold}handle#{Bold} for changes"\r
168     when "rewatch"\r
169       "rss rewatch : restart threads that watch for changes in watched rss"\r
170     else\r
171       "manage RSS feeds: rss show|list|watched|add|del(ete)|rm|(force)replace|watch|unwatch|rmwatch|rewatch"\r
172     end\r
173   end\r
174 \r
175   def report_problem(report, e=nil, m=nil)\r
176     if m && m.respond_to?(:reply)\r
177       m.reply report\r
178     else\r
179       warning report\r
180     end\r
181     if e\r
182       debug e.inspect\r
183       debug e.backtrace.join("\n") if e.respond_to?(:backtrace)\r
184     end\r
185   end\r
186 \r
187   def show_rss(m, params)\r
188     handle = params[:handle]\r
189     lims = params[:limit].to_s.match(/(\d+)(?:..(\d+))?/)\r
190     debug lims.to_a.inspect\r
191     if lims[2]\r
192       ll = [[lims[1].to_i-1,lims[2].to_i-1].min,  0].max\r
193       ul = [[lims[1].to_i-1,lims[2].to_i-1].max, 14].min\r
194       rev = lims[1].to_i > lims[2].to_i\r
195     else\r
196       ll = 0\r
197       ul = [[lims[1].to_i-1, 1].max, 14].min\r
198       rev = false\r
199     end\r
200 \r
201     feed = @feeds.fetch(handle, nil)\r
202     unless feed\r
203       m.reply "I don't know any feeds named #{handle}"\r
204       return\r
205     end\r
206 \r
207     m.reply "lemme fetch it..."\r
208     title = items = nil\r
209     @@mutex.synchronize {\r
210       title, items = fetchRss(feed, m)\r
211     }\r
212     return unless items\r
213 \r
214     # We sort the feeds in freshness order (newer ones first)\r
215     items = freshness_sort(items)\r
216     disp = items[ll..ul]\r
217     disp.reverse! if rev\r
218 \r
219     m.reply "Channel : #{title}"\r
220     disp.each do |item|\r
221       printFormattedRss(feed, item, {:places=>[m.replyto],:handle=>nil,:date=>true})\r
222     end\r
223   end\r
224 \r
225   def itemDate(item,ex=nil)\r
226     return item.pubDate if item.respond_to?(:pubDate)\r
227     return item.date if item.respond_to?(:date)\r
228     return ex\r
229   end\r
230 \r
231   def freshness_sort(items)\r
232     notime = Time.at(0)\r
233     items.sort { |a, b|\r
234       itemDate(b, notime) <=> itemDate(a, notime)\r
235     }\r
236   end\r
237 \r
238   def list_rss(m, params)\r
239     wanted = params[:handle]\r
240     reply = String.new\r
241     @@mutex.synchronize {\r
242       @feeds.each { |handle, feed|\r
243         next if wanted and !handle.match(wanted)\r
244         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})"\r
245         (reply << " (watched)") if feed.watched_by?(m.replyto)\r
246         reply << "\n"\r
247       }\r
248     }\r
249     if reply.empty?\r
250       reply = "no feeds found"\r
251       reply << " matching #{wanted}" if wanted\r
252     end\r
253     m.reply reply\r
254   end\r
255 \r
256   def watched_rss(m, params)\r
257     wanted = params[:handle]\r
258     reply = String.new\r
259     @@mutex.synchronize {\r
260       watchlist.each { |handle, feed|\r
261         next if wanted and !handle.match(wanted)\r
262         next unless feed.watched_by?(m.replyto)\r
263         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})\n"\r
264       }\r
265     }\r
266     if reply.empty?\r
267       reply = "no watched feeds"\r
268       reply << " matching #{wanted}" if wanted\r
269     end\r
270     m.reply reply\r
271   end\r
272 \r
273   def add_rss(m, params, force=false)\r
274     handle = params[:handle]\r
275     url = params[:url]\r
276     unless url.match(/https?/)\r
277       m.reply "I only deal with feeds from HTTP sources, so I can't use #{url} (maybe you forgot the handle?)"\r
278       return\r
279     end\r
280     type = params[:type]\r
281     if @feeds.fetch(handle, nil) && !force\r
282       m.reply "There is already a feed named #{handle} (URL: #{@feeds[handle].url})"\r
283       return\r
284     end\r
285     unless url\r
286       m.reply "You must specify both a handle and an url to add an RSS feed"\r
287       return\r
288     end\r
289     @@mutex.synchronize {\r
290       @feeds[handle] = RssBlob.new(url,handle,type)\r
291     }\r
292     reply = "Added RSS #{url} named #{handle}"\r
293     if type\r
294       reply << " (format: #{type})"\r
295     end\r
296     m.reply reply\r
297     return handle\r
298   end\r
299 \r
300   def del_rss(m, params, pass=false)\r
301     feed = unwatch_rss(m, params, true)\r
302     if feed.watched?\r
303       m.reply "someone else is watching #{feed.handle}, I won't remove it from my list"\r
304       return\r
305     end\r
306     @@mutex.synchronize {\r
307       @feeds.delete(feed.handle)\r
308     }\r
309     m.okay unless pass\r
310     return\r
311   end\r
312 \r
313   def replace_rss(m, params)\r
314     handle = params[:handle]\r
315     if @feeds.key?(handle)\r
316       del_rss(m, {:handle => handle}, true)\r
317     end\r
318     if @feeds.key?(handle)\r
319       m.reply "can't replace #{feed.handle}"\r
320     else\r
321       add_rss(m, params, true)\r
322     end\r
323   end\r
324 \r
325   def forcereplace_rss(m, params)\r
326     add_rss(m, params, true)\r
327   end\r
328 \r
329   def watch_rss(m, params)\r
330     handle = params[:handle]\r
331     url = params[:url]\r
332     type = params[:type]\r
333     if url\r
334       add_rss(m, params)\r
335     end\r
336     feed = nil\r
337     @@mutex.synchronize {\r
338       feed = @feeds.fetch(handle, nil)\r
339     }\r
340     if feed\r
341       @@mutex.synchronize {\r
342         if feed.add_watch(m.replyto)\r
343           watchRss(feed, m)\r
344           m.okay\r
345         else\r
346           m.reply "Already watching #{feed.handle}"\r
347         end\r
348       }\r
349     else\r
350       m.reply "Couldn't watch feed #{handle} (no such feed found)"\r
351     end\r
352   end\r
353 \r
354   def unwatch_rss(m, params, pass=false)\r
355     handle = params[:handle]\r
356     unless @feeds.has_key?(handle)\r
357       m.reply("dunno that feed")\r
358       return\r
359     end\r
360     feed = @feeds[handle]\r
361     if feed.rm_watch(m.replyto)\r
362       m.reply "#{m.replyto} has been removed from the watchlist for #{feed.handle}"\r
363     else\r
364       m.reply("#{m.replyto} wasn't watching #{feed.handle}") unless pass\r
365     end\r
366     if !feed.watched?\r
367       @@mutex.synchronize {\r
368         if @@watchThreads[handle].kind_of? Thread\r
369           @@watchThreads[handle].kill\r
370           debug "rmwatch: Killed thread for #{handle}"\r
371           @@watchThreads.delete(handle)\r
372         end\r
373       }\r
374     end\r
375     return feed\r
376   end\r
377 \r
378   def rewatch_rss(m=nil, params=nil)\r
379     kill_threads\r
380 \r
381     # Read watches from list.\r
382     watchlist.each{ |handle, feed|\r
383       watchRss(feed, m)\r
384     }\r
385     m.okay if m\r
386   end\r
387 \r
388   private\r
389   def watchRss(feed, m=nil)\r
390     if @@watchThreads.has_key?(feed.handle)\r
391       report_problem("watcher thread for #{feed.handle} is already running", nil, m)\r
392       return\r
393     end\r
394     @@watchThreads[feed.handle] = Thread.new do\r
395       debug "watcher for #{feed} started"\r
396       oldItems = []\r
397       firstRun = true\r
398       failures = 0\r
399       loop do\r
400         begin\r
401           debug "fetching #{feed}"\r
402           title = newItems = nil\r
403           @@mutex.synchronize {\r
404             title, newItems = fetchRss(feed)\r
405           }\r
406           unless newItems\r
407             debug "no items in feed #{feed}"\r
408             failures +=1\r
409           else\r
410             debug "Checking if new items are available for #{feed}"\r
411             if firstRun\r
412               debug "First run, we'll see next time"\r
413               firstRun = false\r
414             else\r
415               otxt = oldItems.map { |item| item.to_s }\r
416               dispItems = newItems.reject { |item|\r
417                 otxt.include?(item.to_s)\r
418               }\r
419               if dispItems.length > 0\r
420                 debug "Found #{dispItems.length} new items in #{feed}"\r
421                 dispItems.each { |item|\r
422                   @@mutex.synchronize {\r
423                     printFormattedRss(feed, item)\r
424                   }\r
425                 }\r
426               else\r
427                 debug "No new items found in #{feed}"\r
428               end\r
429             end\r
430             oldItems = newItems.dup\r
431           end\r
432         rescue Exception => e\r
433           error "Error watching #{feed}: #{e.inspect}"\r
434           debug e.backtrace.join("\n")\r
435           failures += 1\r
436         end\r
437 \r
438         seconds = @bot.config['rss.thread_sleep'] * (failures + 1)\r
439         seconds += seconds * (rand(100)-50)/100\r
440         debug "watcher for #{feed} going to sleep #{seconds} seconds.."\r
441         sleep seconds\r
442       end\r
443     end\r
444   end\r
445 \r
446   def printFormattedRss(feed, item, opts=nil)\r
447     places = feed.watchers\r
448     handle = "::#{feed.handle}:: "\r
449     date = String.new\r
450     if opts\r
451       places = opts[:places] if opts.key?(:places)\r
452       handle = opts[:handle].to_s if opts.key?(:handle)\r
453       if opts.key?(:date) && opts[:date]\r
454         if item.respond_to?(:pubDate) \r
455           if item.pubDate.class <= Time\r
456             date = item.pubDate.strftime("%Y/%m/%d %H.%M.%S")\r
457           else\r
458             date = item.pubDate.to_s\r
459           end\r
460         elsif  item.respond_to?(:date)\r
461           if item.date.class <= Time\r
462             date = item.date.strftime("%Y/%m/%d %H.%M.%S")\r
463           else\r
464             date = item.date.to_s\r
465           end\r
466         else\r
467           date = "(no date)"\r
468         end\r
469         date += " :: "\r
470       end\r
471     end\r
472     title = "#{Bold}#{item.title.chomp.riphtml}#{Bold}" if item.title\r
473     desc = item.description.gsub(/\s+/,' ').strip.riphtml.shorten(@bot.config['rss.text_max']) if item.description\r
474     link = item.link.chomp if item.link\r
475     places.each { |loc|\r
476       case feed.type\r
477       when 'blog'\r
478         @bot.say loc, "#{handle}#{date}#{item.category.content} blogged at #{link}"\r
479         @bot.say loc, "#{handle}#{title} - #{desc}"\r
480       when 'forum'\r
481         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
482       when 'wiki'\r
483         @bot.say loc, "#{handle}#{date}#{item.title} has been edited by #{item.dc_creator}. #{desc} #{link}"\r
484       when 'gmame'\r
485         @bot.say loc, "#{handle}#{date}Message #{title} sent by #{item.dc_creator}. #{desc}"\r
486       when 'trac'\r
487         @bot.say loc, "#{handle}#{date}#{title} @ #{link}"\r
488         unless item.title =~ /^Changeset \[(\d+)\]/\r
489           @bot.say loc, "#{handle}#{date}#{desc}"\r
490         end\r
491       else\r
492         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
493       end\r
494     }\r
495   end\r
496 \r
497   def fetchRss(feed, m=nil)\r
498     begin\r
499       # Use 60 sec timeout, cause the default is too low\r
500       # Do not use get_cached for RSS until we have proper cache handling\r
501       # xml = @bot.httputil.get_cached(feed.url,60,60)\r
502       xml = @bot.httputil.get(feed.url,60,60)\r
503     rescue URI::InvalidURIError, URI::BadURIError => e\r
504       report_problem("invalid rss feed #{feed.url}", e, m)\r
505       return\r
506     rescue => e\r
507       report_problem("error getting #{feed.url}", e, m)\r
508       return\r
509     end\r
510     debug "fetched #{feed}"\r
511     unless xml\r
512       report_problem("reading feed #{feed} failed", nil, m)\r
513       return\r
514     end\r
515 \r
516     begin\r
517       ## do validate parse\r
518       rss = RSS::Parser.parse(xml)\r
519       debug "parsed #{feed}"\r
520     rescue RSS::InvalidRSSError\r
521       ## do non validate parse for invalid RSS 1.0\r
522       begin\r
523         rss = RSS::Parser.parse(xml, false)\r
524       rescue RSS::Error => e\r
525         report_problem("parsing rss stream failed, whoops =(", e, m)\r
526         return\r
527       end\r
528     rescue RSS::Error => e\r
529       report_problem("parsing rss stream failed, oioi", e, m)\r
530       return\r
531     rescue => e\r
532       report_problem("processing error occured, sorry =(", e, m)\r
533       return\r
534     end\r
535     items = []\r
536     if rss.nil?\r
537       report_problem("#{feed} does not include RSS 1.0 or 0.9x/2.0", nil, m)\r
538     else\r
539       begin\r
540         rss.output_encoding = 'UTF-8'\r
541       rescue RSS::UnknownConvertMethod => e\r
542         report_problem("bah! something went wrong =(", e, m)\r
543         return\r
544       end\r
545       rss.channel.title ||= "Unknown"\r
546       title = rss.channel.title\r
547       rss.items.each do |item|\r
548         item.title ||= "Unknown"\r
549         items << item\r
550       end\r
551     end\r
552 \r
553     if items.empty?\r
554       report_problem("no items found in the feed, maybe try weed?", e, m)\r
555       return\r
556     end\r
557     return [title, items]\r
558   end\r
559 end\r
560 \r
561 plugin = RSSFeedsPlugin.new\r
562 \r
563 plugin.map 'rss show :handle :limit',\r
564   :action => 'show_rss',\r
565   :requirements => {:limit => /^\d+(?:\.\.\d+)?$/},\r
566   :defaults => {:limit => 5}\r
567 plugin.map 'rss list :handle',\r
568   :action => 'list_rss',\r
569   :defaults =>  {:handle => nil}\r
570 plugin.map 'rss watched :handle',\r
571   :action => 'watched_rss',\r
572   :defaults =>  {:handle => nil}\r
573 plugin.map 'rss add :handle :url :type',\r
574   :action => 'add_rss',\r
575   :defaults => {:type => nil}\r
576 plugin.map 'rss del :handle',\r
577   :action => 'del_rss'\r
578 plugin.map 'rss delete :handle',\r
579   :action => 'del_rss'\r
580 plugin.map 'rss rm :handle',\r
581   :action => 'del_rss'\r
582 plugin.map 'rss replace :handle :url :type',\r
583   :action => 'replace_rss',\r
584   :defaults => {:type => nil}\r
585 plugin.map 'rss forcereplace :handle :url :type',\r
586   :action => 'forcereplace_rss',\r
587   :defaults => {:type => nil}\r
588 plugin.map 'rss watch :handle :url :type',\r
589   :action => 'watch_rss',\r
590   :defaults => {:url => nil, :type => nil}\r
591 plugin.map 'rss unwatch :handle',\r
592   :action => 'unwatch_rss'\r
593 plugin.map 'rss rmwatch :handle',\r
594   :action => 'unwatch_rss'\r
595 plugin.map 'rss rewatch',\r
596   :action => 'rewatch_rss'\r
597 \r