]> git.netwichtig.de Git - user/henk/code/ruby/rbot.git/blob - data/rbot/plugins/rss.rb
More lart plugins cleanup
[user/henk/code/ruby/rbot.git] / data / rbot / plugins / rss.rb
1 #-- vim:sw=2:et\r
2 #++\r
3 #\r
4 # RSS feed plugin for RubyBot\r
5 # (c) 2004 Stanislav Karchebny <berkus@madfire.net>\r
6 # (c) 2005 Ian Monroe <ian@monroe.nu>\r
7 # (c) 2005 Mark Kretschmann <markey@web.de>\r
8 # (c) 2006 Giuseppe Bilotta <giuseppe.bilotta@gmail.com>\r
9 #\r
10 # Licensed under MIT License.\r
11 \r
12 require 'rss/parser'\r
13 require 'rss/1.0'\r
14 require 'rss/2.0'\r
15 require 'rss/dublincore'\r
16 # begin\r
17 #   require 'rss/dublincore/2.0'\r
18 # rescue\r
19 #   warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
20 # end\r
21 \r
22 class ::String\r
23   def shorten(limit)\r
24     if self.length > limit\r
25       self+". " =~ /^(.{#{limit}}[^.!;?]*[.!;?])/mi\r
26       return $1\r
27     end\r
28     self\r
29   end\r
30 \r
31   def riphtml\r
32     self.gsub(/<[^>]+>/, '').gsub(/&amp;/,'&').gsub(/&quot;/,'"').gsub(/&lt;/,'<').gsub(/&gt;/,'>').gsub(/&ellip;/,'...').gsub(/&apos;/, "'").gsub("\n",'')\r
33   end\r
34 \r
35   def mysqlize\r
36     self.gsub(/'/, "''")\r
37   end\r
38 end\r
39 \r
40 class ::RssBlob\r
41   attr :url\r
42   attr :handle\r
43   attr :type\r
44   attr :watchers\r
45 \r
46   def initialize(url,handle=nil,type=nil,watchers=[])\r
47     @url = url\r
48     if handle\r
49       @handle = handle\r
50     else\r
51       @handle = url\r
52     end\r
53     @type = type\r
54     @watchers=[]\r
55     sanitize_watchers(watchers)\r
56   end\r
57 \r
58   # Downcase all watchers, possibly turning them into Strings if they weren't\r
59   def sanitize_watchers(list=@watchers)\r
60     ls = list.dup\r
61     @watchers.clear\r
62     ls.each { |w|\r
63       add_watch(w)\r
64     }\r
65   end\r
66 \r
67   def watched?\r
68     !@watchers.empty?\r
69   end\r
70 \r
71   def watched_by?(who)\r
72     @watchers.include?(who.downcase)\r
73   end\r
74 \r
75   def add_watch(who)\r
76     if watched_by?(who)\r
77       return nil\r
78     end\r
79     @watchers << who.downcase\r
80     return who\r
81   end\r
82 \r
83   def rm_watch(who)\r
84     @watchers.delete(who.downcase)\r
85   end\r
86 \r
87   def to_a\r
88     [@handle,@url,@type,@watchers]\r
89   end\r
90 \r
91   def to_s(watchers=false)\r
92     if watchers\r
93       a = self.to_a.flatten\r
94     else\r
95       a = self.to_a[0,3]\r
96     end\r
97     a.compact.join(" | ")\r
98   end\r
99 end\r
100 \r
101 class RSSFeedsPlugin < Plugin\r
102   BotConfig.register BotConfigIntegerValue.new('rss.head_max',\r
103     :default => 30, :validate => Proc.new{|v| v > 0 && v < 200},\r
104     :desc => "How many characters to use of a RSS item header")\r
105 \r
106   BotConfig.register BotConfigIntegerValue.new('rss.text_max',\r
107     :default => 90, :validate => Proc.new{|v| v > 0 && v < 400},\r
108     :desc => "How many characters to use of a RSS item text")\r
109 \r
110   BotConfig.register BotConfigIntegerValue.new('rss.thread_sleep',\r
111     :default => 300, :validate => Proc.new{|v| v > 30},\r
112     :desc => "How many seconds to sleep before checking RSS feeds again")\r
113 \r
114   @@watchThreads = Hash.new\r
115   @@mutex = Mutex.new\r
116 \r
117   def initialize\r
118     super\r
119     kill_threads\r
120     if @registry.has_key?(:feeds)\r
121       @feeds = @registry[:feeds]\r
122       @feeds.keys.grep(/[A-Z]/) { |k|\r
123         @feeds[k.downcase] = @feeds[k]\r
124         @feeds.delete(k)\r
125       }\r
126       @feeds.each { |k, f|\r
127         f.sanitize_watchers\r
128       }\r
129     else\r
130       @feeds = Hash.new\r
131     end\r
132     rewatch_rss\r
133   end\r
134 \r
135   def name\r
136     "rss"\r
137   end\r
138 \r
139   def watchlist\r
140     @feeds.select { |h, f| f.watched? }\r
141   end\r
142 \r
143   def cleanup\r
144     kill_threads\r
145   end\r
146 \r
147   def save\r
148     @registry[:feeds] = @feeds\r
149   end\r
150 \r
151   def kill_threads\r
152     @@mutex.synchronize {\r
153       # Abort all running threads.\r
154       @@watchThreads.each { |url, thread|\r
155         debug "Killing thread for #{url}"\r
156         thread.kill\r
157       }\r
158       @@watchThreads = Hash.new\r
159     }\r
160   end\r
161 \r
162   def help(plugin,topic="")\r
163     case topic\r
164     when "show"\r
165       "rss show #{Bold}handle#{Bold} [#{Bold}limit#{Bold}] : show #{Bold}limit#{Bold} (default: 5, max: 15) entries from rss #{Bold}handle#{Bold}; #{Bold}limit#{Bold} can also be in the form a..b, to display a specific range of items"\r
166     when "list"\r
167       "rss list [#{Bold}handle#{Bold}] : list all rss feeds (matching #{Bold}handle#{Bold})"\r
168     when "watched"\r
169       "rss watched [#{Bold}handle#{Bold}] : list all watched rss feeds (matching #{Bold}handle#{Bold})"\r
170     when "add"\r
171       "rss add #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : add a new rss called #{Bold}handle#{Bold} from url #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
172     when /^(del(ete)?|rm)$/\r
173       "rss del(ete)|rm #{Bold}handle#{Bold} : delete rss feed #{Bold}handle#{Bold}"\r
174     when "replace"\r
175       "rss replace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : try to replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold}); only works if nobody else is watching it"\r
176     when "forcereplace"\r
177       "rss forcereplace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
178     when "watch"\r
179       "rss watch #{Bold}handle#{Bold} [#{Bold}url#{Bold} [#{Bold}type#{Bold}]] : watch rss #{Bold}handle#{Bold} for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
180     when /(un|rm)watch/\r
181       "rss unwatch|rmwatch #{Bold}handle#{Bold} : stop watching rss #{Bold}handle#{Bold} for changes"\r
182     when "rewatch"\r
183       "rss rewatch : restart threads that watch for changes in watched rss"\r
184     else\r
185       "manage RSS feeds: rss show|list|watched|add|del(ete)|rm|(force)replace|watch|unwatch|rmwatch|rewatch"\r
186     end\r
187   end\r
188 \r
189   def report_problem(report, e=nil, m=nil)\r
190     if m && m.respond_to?(:reply)\r
191       m.reply report\r
192     else\r
193       warning report\r
194     end\r
195     if e\r
196       debug e.inspect\r
197       debug e.backtrace.join("\n") if e.respond_to?(:backtrace)\r
198     end\r
199   end\r
200 \r
201   def show_rss(m, params)\r
202     handle = params[:handle]\r
203     lims = params[:limit].to_s.match(/(\d+)(?:..(\d+))?/)\r
204     debug lims.to_a.inspect\r
205     if lims[2]\r
206       ll = [[lims[1].to_i-1,lims[2].to_i-1].min,  0].max\r
207       ul = [[lims[1].to_i-1,lims[2].to_i-1].max, 14].min\r
208       rev = lims[1].to_i > lims[2].to_i\r
209     else\r
210       ll = 0\r
211       ul = [[lims[1].to_i-1, 0].max, 14].min\r
212       rev = false\r
213     end\r
214 \r
215     feed = @feeds.fetch(handle.downcase, nil)\r
216     unless feed\r
217       m.reply "I don't know any feeds named #{handle}"\r
218       return\r
219     end\r
220 \r
221     m.reply "lemme fetch it..."\r
222     title = items = nil\r
223     @@mutex.synchronize {\r
224       title, items = fetchRss(feed, m)\r
225     }\r
226     return unless items\r
227 \r
228     # We sort the feeds in freshness order (newer ones first)\r
229     items = freshness_sort(items)\r
230     disp = items[ll..ul]\r
231     disp.reverse! if rev\r
232 \r
233     m.reply "Channel : #{title}"\r
234     disp.each do |item|\r
235       printFormattedRss(feed, item, {:places=>[m.replyto],:handle=>nil,:date=>true})\r
236     end\r
237   end\r
238 \r
239   def itemDate(item,ex=nil)\r
240     return item.pubDate if item.respond_to?(:pubDate) and item.pubDate\r
241     return item.date if item.respond_to?(:date) and item.date\r
242     return ex\r
243   end\r
244 \r
245   def freshness_sort(items)\r
246     notime = Time.at(0)\r
247     items.sort { |a, b|\r
248       itemDate(b, notime) <=> itemDate(a, notime)\r
249     }\r
250   end\r
251 \r
252   def list_rss(m, params)\r
253     wanted = params[:handle]\r
254     reply = String.new\r
255     @@mutex.synchronize {\r
256       @feeds.each { |handle, feed|\r
257         next if wanted and !handle.match(/#{wanted}/i)\r
258         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})"\r
259         (reply << " (watched)") if feed.watched_by?(m.replyto)\r
260         reply << "\n"\r
261       }\r
262     }\r
263     if reply.empty?\r
264       reply = "no feeds found"\r
265       reply << " matching #{wanted}" if wanted\r
266     end\r
267     m.reply reply\r
268   end\r
269 \r
270   def watched_rss(m, params)\r
271     wanted = params[:handle]\r
272     reply = String.new\r
273     @@mutex.synchronize {\r
274       watchlist.each { |handle, feed|\r
275         next if wanted and !handle.match(/#{wanted}/i)\r
276         next unless feed.watched_by?(m.replyto)\r
277         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})\n"\r
278       }\r
279     }\r
280     if reply.empty?\r
281       reply = "no watched feeds"\r
282       reply << " matching #{wanted}" if wanted\r
283     end\r
284     m.reply reply\r
285   end\r
286 \r
287   def add_rss(m, params, force=false)\r
288     handle = params[:handle]\r
289     url = params[:url]\r
290     unless url.match(/https?/)\r
291       m.reply "I only deal with feeds from HTTP sources, so I can't use #{url} (maybe you forgot the handle?)"\r
292       return\r
293     end\r
294     type = params[:type]\r
295     if @feeds.fetch(handle.downcase, nil) && !force\r
296       m.reply "There is already a feed named #{handle} (URL: #{@feeds[handle.downcase].url})"\r
297       return\r
298     end\r
299     unless url\r
300       m.reply "You must specify both a handle and an url to add an RSS feed"\r
301       return\r
302     end\r
303     @@mutex.synchronize {\r
304       @feeds[handle.downcase] = RssBlob.new(url,handle,type)\r
305     }\r
306     reply = "Added RSS #{url} named #{handle}"\r
307     if type\r
308       reply << " (format: #{type})"\r
309     end\r
310     m.reply reply\r
311     return handle\r
312   end\r
313 \r
314   def del_rss(m, params, pass=false)\r
315     feed = unwatch_rss(m, params, true)\r
316     if feed.watched?\r
317       m.reply "someone else is watching #{feed.handle}, I won't remove it from my list"\r
318       return\r
319     end\r
320     @@mutex.synchronize {\r
321       @feeds.delete(feed.handle.downcase)\r
322     }\r
323     m.okay unless pass\r
324     return\r
325   end\r
326 \r
327   def replace_rss(m, params)\r
328     handle = params[:handle]\r
329     if @feeds.key?(handle.downcase)\r
330       del_rss(m, {:handle => handle}, true)\r
331     end\r
332     if @feeds.key?(handle.downcase)\r
333       m.reply "can't replace #{feed.handle}"\r
334     else\r
335       add_rss(m, params, true)\r
336     end\r
337   end\r
338 \r
339   def forcereplace_rss(m, params)\r
340     add_rss(m, params, true)\r
341   end\r
342 \r
343   def watch_rss(m, params)\r
344     handle = params[:handle]\r
345     url = params[:url]\r
346     type = params[:type]\r
347     if url\r
348       add_rss(m, params)\r
349     end\r
350     feed = nil\r
351     @@mutex.synchronize {\r
352       feed = @feeds.fetch(handle.downcase, nil)\r
353     }\r
354     if feed\r
355       @@mutex.synchronize {\r
356         if feed.add_watch(m.replyto)\r
357           watchRss(feed, m)\r
358           m.okay\r
359         else\r
360           m.reply "Already watching #{feed.handle}"\r
361         end\r
362       }\r
363     else\r
364       m.reply "Couldn't watch feed #{handle} (no such feed found)"\r
365     end\r
366   end\r
367 \r
368   def unwatch_rss(m, params, pass=false)\r
369     handle = params[:handle].downcase\r
370     unless @feeds.has_key?(handle)\r
371       m.reply("dunno that feed")\r
372       return\r
373     end\r
374     feed = @feeds[handle]\r
375     if feed.rm_watch(m.replyto)\r
376       m.reply "#{m.replyto} has been removed from the watchlist for #{feed.handle}"\r
377     else\r
378       m.reply("#{m.replyto} wasn't watching #{feed.handle}") unless pass\r
379     end\r
380     if !feed.watched?\r
381       @@mutex.synchronize {\r
382         if @@watchThreads[handle].kind_of? Thread\r
383           @@watchThreads[handle].kill\r
384           debug "rmwatch: Killed thread for #{handle}"\r
385           @@watchThreads.delete(handle)\r
386         end\r
387       }\r
388     end\r
389     return feed\r
390   end\r
391 \r
392   def rewatch_rss(m=nil, params=nil)\r
393     kill_threads\r
394 \r
395     # Read watches from list.\r
396     watchlist.each{ |handle, feed|\r
397       watchRss(feed, m)\r
398     }\r
399     m.okay if m\r
400   end\r
401 \r
402   private\r
403   def watchRss(feed, m=nil)\r
404     if @@watchThreads.has_key?(feed.handle)\r
405       report_problem("watcher thread for #{feed.handle} is already running", nil, m)\r
406       return\r
407     end\r
408     @@watchThreads[feed.handle] = Thread.new do\r
409       debug "watcher for #{feed} started"\r
410       oldItems = []\r
411       firstRun = true\r
412       failures = 0\r
413       loop do\r
414         begin\r
415           debug "fetching #{feed}"\r
416           title = newItems = nil\r
417           @@mutex.synchronize {\r
418             title, newItems = fetchRss(feed)\r
419           }\r
420           unless newItems\r
421             debug "no items in feed #{feed}"\r
422             failures +=1\r
423           else\r
424             debug "Checking if new items are available for #{feed}"\r
425             if firstRun\r
426               debug "First run, we'll see next time"\r
427               firstRun = false\r
428             else\r
429               otxt = oldItems.map { |item| item.to_s }\r
430               dispItems = newItems.reject { |item|\r
431                 otxt.include?(item.to_s)\r
432               }\r
433               if dispItems.length > 0\r
434                 debug "Found #{dispItems.length} new items in #{feed}"\r
435                 # When displaying watched feeds, publish them from older to newer\r
436                 dispItems.reverse.each { |item|\r
437                   @@mutex.synchronize {\r
438                     printFormattedRss(feed, item)\r
439                   }\r
440                 }\r
441               else\r
442                 debug "No new items found in #{feed}"\r
443               end\r
444             end\r
445             oldItems = newItems.dup\r
446           end\r
447         rescue Exception => e\r
448           error "Error watching #{feed}: #{e.inspect}"\r
449           debug e.backtrace.join("\n")\r
450           failures += 1\r
451         end\r
452 \r
453         seconds = @bot.config['rss.thread_sleep'] * (failures + 1)\r
454         seconds += seconds * (rand(100)-50)/100\r
455         debug "watcher for #{feed} going to sleep #{seconds} seconds.."\r
456         sleep seconds\r
457       end\r
458     end\r
459   end\r
460 \r
461   def printFormattedRss(feed, item, opts=nil)\r
462     places = feed.watchers\r
463     handle = "::#{feed.handle}:: "\r
464     date = String.new\r
465     if opts\r
466       places = opts[:places] if opts.key?(:places)\r
467       handle = opts[:handle].to_s if opts.key?(:handle)\r
468       if opts.key?(:date) && opts[:date]\r
469         if item.respond_to?(:pubDate) \r
470           if item.pubDate.class <= Time\r
471             date = item.pubDate.strftime("%Y/%m/%d %H.%M.%S")\r
472           else\r
473             date = item.pubDate.to_s\r
474           end\r
475         elsif  item.respond_to?(:date)\r
476           if item.date.class <= Time\r
477             date = item.date.strftime("%Y/%m/%d %H.%M.%S")\r
478           else\r
479             date = item.date.to_s\r
480           end\r
481         else\r
482           date = "(no date)"\r
483         end\r
484         date += " :: "\r
485       end\r
486     end\r
487     title = "#{Bold}#{item.title.chomp.riphtml}#{Bold}" if item.title\r
488     desc = item.description.gsub(/\s+/,' ').strip.riphtml.shorten(@bot.config['rss.text_max']) if item.description\r
489     link = item.link.chomp if item.link\r
490     places.each { |loc|\r
491       case feed.type\r
492       when 'blog'\r
493         @bot.say loc, "#{handle}#{date}#{item.category.content} blogged at #{link}"\r
494         @bot.say loc, "#{handle}#{title} - #{desc}"\r
495       when 'forum'\r
496         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
497       when 'wiki'\r
498         @bot.say loc, "#{handle}#{date}#{item.title} has been edited by #{item.dc_creator}. #{desc} #{link}"\r
499       when 'gmame'\r
500         @bot.say loc, "#{handle}#{date}Message #{title} sent by #{item.dc_creator}. #{desc}"\r
501       when 'trac'\r
502         @bot.say loc, "#{handle}#{date}#{title} @ #{link}"\r
503         unless item.title =~ /^Changeset \[(\d+)\]/\r
504           @bot.say loc, "#{handle}#{date}#{desc}"\r
505         end\r
506       else\r
507         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
508       end\r
509     }\r
510   end\r
511 \r
512   def fetchRss(feed, m=nil)\r
513     begin\r
514       # Use 60 sec timeout, cause the default is too low\r
515       # Do not use get_cached for RSS until we have proper cache handling\r
516       # xml = @bot.httputil.get_cached(feed.url,60,60)\r
517       xml = @bot.httputil.get_cached(feed.url, 60, 60)\r
518     rescue URI::InvalidURIError, URI::BadURIError => e\r
519       report_problem("invalid rss feed #{feed.url}", e, m)\r
520       return\r
521     rescue => e\r
522       report_problem("error getting #{feed.url}", e, m)\r
523       return\r
524     end\r
525     debug "fetched #{feed}"\r
526     unless xml\r
527       report_problem("reading feed #{feed} failed", nil, m)\r
528       return\r
529     end\r
530 \r
531     begin\r
532       ## do validate parse\r
533       rss = RSS::Parser.parse(xml)\r
534       debug "parsed #{feed}"\r
535     rescue RSS::InvalidRSSError\r
536       ## do non validate parse for invalid RSS 1.0\r
537       begin\r
538         rss = RSS::Parser.parse(xml, false)\r
539       rescue RSS::Error => e\r
540         report_problem("parsing rss stream failed, whoops =(", e, m)\r
541         return\r
542       end\r
543     rescue RSS::Error => e\r
544       report_problem("parsing rss stream failed, oioi", e, m)\r
545       return\r
546     rescue => e\r
547       report_problem("processing error occured, sorry =(", e, m)\r
548       return\r
549     end\r
550     items = []\r
551     if rss.nil?\r
552       report_problem("#{feed} does not include RSS 1.0 or 0.9x/2.0", nil, m)\r
553     else\r
554       begin\r
555         rss.output_encoding = 'UTF-8'\r
556       rescue RSS::UnknownConvertMethod => e\r
557         report_problem("bah! something went wrong =(", e, m)\r
558         return\r
559       end\r
560       rss.channel.title ||= "Unknown"\r
561       title = rss.channel.title\r
562       rss.items.each do |item|\r
563         item.title ||= "Unknown"\r
564         items << item\r
565       end\r
566     end\r
567 \r
568     if items.empty?\r
569       report_problem("no items found in the feed, maybe try weed?", e, m)\r
570       return\r
571     end\r
572     return [title, items]\r
573   end\r
574 end\r
575 \r
576 plugin = RSSFeedsPlugin.new\r
577 \r
578 plugin.map 'rss show :handle :limit',\r
579   :action => 'show_rss',\r
580   :requirements => {:limit => /^\d+(?:\.\.\d+)?$/},\r
581   :defaults => {:limit => 5}\r
582 plugin.map 'rss list :handle',\r
583   :action => 'list_rss',\r
584   :defaults =>  {:handle => nil}\r
585 plugin.map 'rss watched :handle',\r
586   :action => 'watched_rss',\r
587   :defaults =>  {:handle => nil}\r
588 plugin.map 'rss add :handle :url :type',\r
589   :action => 'add_rss',\r
590   :defaults => {:type => nil}\r
591 plugin.map 'rss del :handle',\r
592   :action => 'del_rss'\r
593 plugin.map 'rss delete :handle',\r
594   :action => 'del_rss'\r
595 plugin.map 'rss rm :handle',\r
596   :action => 'del_rss'\r
597 plugin.map 'rss replace :handle :url :type',\r
598   :action => 'replace_rss',\r
599   :defaults => {:type => nil}\r
600 plugin.map 'rss forcereplace :handle :url :type',\r
601   :action => 'forcereplace_rss',\r
602   :defaults => {:type => nil}\r
603 plugin.map 'rss watch :handle :url :type',\r
604   :action => 'watch_rss',\r
605   :defaults => {:url => nil, :type => nil}\r
606 plugin.map 'rss unwatch :handle',\r
607   :action => 'unwatch_rss'\r
608 plugin.map 'rss rmwatch :handle',\r
609   :action => 'unwatch_rss'\r
610 plugin.map 'rss rewatch',\r
611   :action => 'rewatch_rss'\r
612 \r