]> git.netwichtig.de Git - user/henk/code/ruby/rbot.git/blob - data/rbot/plugins/rss.rb
rss plugin: fix missplet 'gmane'
[user/henk/code/ruby/rbot.git] / data / rbot / plugins / rss.rb
1 #-- vim:sw=2:et\r
2 #++\r
3 #\r
4 # RSS feed plugin for RubyBot\r
5 # (c) 2004 Stanislav Karchebny <berkus@madfire.net>\r
6 # (c) 2005 Ian Monroe <ian@monroe.nu>\r
7 # (c) 2005 Mark Kretschmann <markey@web.de>\r
8 # (c) 2006 Giuseppe Bilotta <giuseppe.bilotta@gmail.com>\r
9 #\r
10 # Licensed under MIT License.\r
11 \r
12 require 'rss/parser'\r
13 require 'rss/1.0'\r
14 require 'rss/2.0'\r
15 require 'rss/dublincore'\r
16 # begin\r
17 #   require 'rss/dublincore/2.0'\r
18 # rescue\r
19 #   warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
20 # end\r
21 \r
22 class ::String\r
23   def riphtml\r
24     self.gsub(/<[^>]+>/, '').gsub(/&amp;/,'&').gsub(/&quot;/,'"').gsub(/&lt;/,'<').gsub(/&gt;/,'>').gsub(/&ellip;/,'...').gsub(/&apos;/, "'").gsub("\n",'')\r
25   end\r
26 end\r
27 \r
28 class ::RssBlob\r
29   attr :url\r
30   attr :handle\r
31   attr :type\r
32   attr :watchers\r
33 \r
34   def initialize(url,handle=nil,type=nil,watchers=[])\r
35     @url = url\r
36     if handle\r
37       @handle = handle\r
38     else\r
39       @handle = url\r
40     end\r
41     @type = type\r
42     @watchers=[]\r
43     sanitize_watchers(watchers)\r
44   end\r
45 \r
46   # Downcase all watchers, possibly turning them into Strings if they weren't\r
47   def sanitize_watchers(list=@watchers)\r
48     ls = list.dup\r
49     @watchers.clear\r
50     ls.each { |w|\r
51       add_watch(w)\r
52     }\r
53   end\r
54 \r
55   def watched?\r
56     !@watchers.empty?\r
57   end\r
58 \r
59   def watched_by?(who)\r
60     @watchers.include?(who.downcase)\r
61   end\r
62 \r
63   def add_watch(who)\r
64     if watched_by?(who)\r
65       return nil\r
66     end\r
67     @watchers << who.downcase\r
68     return who\r
69   end\r
70 \r
71   def rm_watch(who)\r
72     @watchers.delete(who.downcase)\r
73   end\r
74 \r
75   def to_a\r
76     [@handle,@url,@type,@watchers]\r
77   end\r
78 \r
79   def to_s(watchers=false)\r
80     if watchers\r
81       a = self.to_a.flatten\r
82     else\r
83       a = self.to_a[0,3]\r
84     end\r
85     a.compact.join(" | ")\r
86   end\r
87 end\r
88 \r
89 class RSSFeedsPlugin < Plugin\r
90   BotConfig.register BotConfigIntegerValue.new('rss.head_max',\r
91     :default => 30, :validate => Proc.new{|v| v > 0 && v < 200},\r
92     :desc => "How many characters to use of a RSS item header")\r
93 \r
94   BotConfig.register BotConfigIntegerValue.new('rss.text_max',\r
95     :default => 90, :validate => Proc.new{|v| v > 0 && v < 400},\r
96     :desc => "How many characters to use of a RSS item text")\r
97 \r
98   BotConfig.register BotConfigIntegerValue.new('rss.thread_sleep',\r
99     :default => 300, :validate => Proc.new{|v| v > 30},\r
100     :desc => "How many seconds to sleep before checking RSS feeds again")\r
101 \r
102   def initialize\r
103     super\r
104     if @registry.has_key?(:feeds)\r
105       @feeds = @registry[:feeds]\r
106       @feeds.keys.grep(/[A-Z]/) { |k|\r
107         @feeds[k.downcase] = @feeds[k]\r
108         @feeds.delete(k)\r
109       }\r
110       @feeds.each { |k, f|\r
111         f.sanitize_watchers\r
112       }\r
113     else\r
114       @feeds = Hash.new\r
115     end\r
116     @watch = Hash.new\r
117     rewatch_rss\r
118   end\r
119 \r
120   def name\r
121     "rss"\r
122   end\r
123 \r
124   def watchlist\r
125     @feeds.select { |h, f| f.watched? }\r
126   end\r
127 \r
128   def cleanup\r
129     stop_watches\r
130   end\r
131 \r
132   def save\r
133     @registry[:feeds] = @feeds\r
134   end\r
135 \r
136   def stop_watch(handle)\r
137     if @watch.has_key?(handle)\r
138       begin\r
139         debug "Stopping watch #{handle}"\r
140         @bot.timer.remove(@watch[handle])\r
141         @watch.delete(handle)\r
142       rescue => e\r
143         report_problem("Failed to stop watch for #{handle}", e, nil)\r
144       end\r
145     end\r
146   end\r
147 \r
148   def stop_watches\r
149     @watch.each_key { |k|\r
150       stop_watch(k)\r
151     }\r
152   end\r
153 \r
154   def help(plugin,topic="")\r
155     case topic\r
156     when "show"\r
157       "rss show #{Bold}handle#{Bold} [#{Bold}limit#{Bold}] : show #{Bold}limit#{Bold} (default: 5, max: 15) entries from rss #{Bold}handle#{Bold}; #{Bold}limit#{Bold} can also be in the form a..b, to display a specific range of items"\r
158     when "list"\r
159       "rss list [#{Bold}handle#{Bold}] : list all rss feeds (matching #{Bold}handle#{Bold})"\r
160     when "watched"\r
161       "rss watched [#{Bold}handle#{Bold}] : list all watched rss feeds (matching #{Bold}handle#{Bold})"\r
162     when "add"\r
163       "rss add #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : add a new rss called #{Bold}handle#{Bold} from url #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
164     when /^(del(ete)?|rm)$/\r
165       "rss del(ete)|rm #{Bold}handle#{Bold} : delete rss feed #{Bold}handle#{Bold}"\r
166     when "replace"\r
167       "rss replace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : try to replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold}); only works if nobody else is watching it"\r
168     when "forcereplace"\r
169       "rss forcereplace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
170     when "watch"\r
171       "rss watch #{Bold}handle#{Bold} [#{Bold}url#{Bold} [#{Bold}type#{Bold}]] : watch rss #{Bold}handle#{Bold} for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
172     when /(un|rm)watch/\r
173       "rss unwatch|rmwatch #{Bold}handle#{Bold} : stop watching rss #{Bold}handle#{Bold} for changes"\r
174     when "rewatch"\r
175       "rss rewatch : restart threads that watch for changes in watched rss"\r
176     else\r
177       "manage RSS feeds: rss show|list|watched|add|del(ete)|rm|(force)replace|watch|unwatch|rmwatch|rewatch"\r
178     end\r
179   end\r
180 \r
181   def report_problem(report, e=nil, m=nil)\r
182     if m && m.respond_to?(:reply)\r
183       m.reply report\r
184     else\r
185       warning report\r
186     end\r
187     if e\r
188       debug e.inspect\r
189       debug e.backtrace.join("\n") if e.respond_to?(:backtrace)\r
190     end\r
191   end\r
192 \r
193   def show_rss(m, params)\r
194     handle = params[:handle]\r
195     lims = params[:limit].to_s.match(/(\d+)(?:..(\d+))?/)\r
196     debug lims.to_a.inspect\r
197     if lims[2]\r
198       ll = [[lims[1].to_i-1,lims[2].to_i-1].min,  0].max\r
199       ul = [[lims[1].to_i-1,lims[2].to_i-1].max, 14].min\r
200       rev = lims[1].to_i > lims[2].to_i\r
201     else\r
202       ll = 0\r
203       ul = [[lims[1].to_i-1, 0].max, 14].min\r
204       rev = false\r
205     end\r
206 \r
207     feed = @feeds.fetch(handle.downcase, nil)\r
208     unless feed\r
209       m.reply "I don't know any feeds named #{handle}"\r
210       return\r
211     end\r
212 \r
213     m.reply "lemme fetch it..."\r
214     title = items = nil\r
215     title, items = fetchRss(feed, m)\r
216     return unless items\r
217 \r
218     # We sort the feeds in freshness order (newer ones first)\r
219     items = freshness_sort(items)\r
220     disp = items[ll..ul]\r
221     disp.reverse! if rev\r
222 \r
223     m.reply "Channel : #{title}"\r
224     disp.each do |item|\r
225       printFormattedRss(feed, item, {:places=>[m.replyto],:handle=>nil,:date=>true})\r
226     end\r
227   end\r
228 \r
229   def itemDate(item,ex=nil)\r
230     return item.pubDate if item.respond_to?(:pubDate) and item.pubDate\r
231     return item.date if item.respond_to?(:date) and item.date\r
232     return ex\r
233   end\r
234 \r
235   def freshness_sort(items)\r
236     notime = Time.at(0)\r
237     items.sort { |a, b|\r
238       itemDate(b, notime) <=> itemDate(a, notime)\r
239     }\r
240   end\r
241 \r
242   def list_rss(m, params)\r
243     wanted = params[:handle]\r
244     reply = String.new\r
245     @feeds.each { |handle, feed|\r
246       next if wanted and !handle.match(/#{wanted}/i)\r
247       reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})"\r
248       (reply << " (watched)") if feed.watched_by?(m.replyto)\r
249       reply << "\n"\r
250     }\r
251     if reply.empty?\r
252       reply = "no feeds found"\r
253       reply << " matching #{wanted}" if wanted\r
254     end\r
255     m.reply reply\r
256   end\r
257 \r
258   def watched_rss(m, params)\r
259     wanted = params[:handle]\r
260     reply = String.new\r
261     watchlist.each { |handle, feed|\r
262       next if wanted and !handle.match(/#{wanted}/i)\r
263       next unless feed.watched_by?(m.replyto)\r
264       reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})\n"\r
265     }\r
266     if reply.empty?\r
267       reply = "no watched feeds"\r
268       reply << " matching #{wanted}" if wanted\r
269     end\r
270     m.reply reply\r
271   end\r
272 \r
273   def add_rss(m, params, force=false)\r
274     handle = params[:handle]\r
275     url = params[:url]\r
276     unless url.match(/https?/)\r
277       m.reply "I only deal with feeds from HTTP sources, so I can't use #{url} (maybe you forgot the handle?)"\r
278       return\r
279     end\r
280     type = params[:type]\r
281     if @feeds.fetch(handle.downcase, nil) && !force\r
282       m.reply "There is already a feed named #{handle} (URL: #{@feeds[handle.downcase].url})"\r
283       return\r
284     end\r
285     unless url\r
286       m.reply "You must specify both a handle and an url to add an RSS feed"\r
287       return\r
288     end\r
289     @feeds[handle.downcase] = RssBlob.new(url,handle,type)\r
290     reply = "Added RSS #{url} named #{handle}"\r
291     if type\r
292       reply << " (format: #{type})"\r
293     end\r
294     m.reply reply\r
295     return handle\r
296   end\r
297 \r
298   def del_rss(m, params, pass=false)\r
299     feed = unwatch_rss(m, params, true)\r
300     if feed.watched?\r
301       m.reply "someone else is watching #{feed.handle}, I won't remove it from my list"\r
302       return\r
303     end\r
304     @feeds.delete(feed.handle.downcase)\r
305     m.okay unless pass\r
306     return\r
307   end\r
308 \r
309   def replace_rss(m, params)\r
310     handle = params[:handle]\r
311     if @feeds.key?(handle.downcase)\r
312       del_rss(m, {:handle => handle}, true)\r
313     end\r
314     if @feeds.key?(handle.downcase)\r
315       m.reply "can't replace #{feed.handle}"\r
316     else\r
317       add_rss(m, params, true)\r
318     end\r
319   end\r
320 \r
321   def forcereplace_rss(m, params)\r
322     add_rss(m, params, true)\r
323   end\r
324 \r
325   def watch_rss(m, params)\r
326     handle = params[:handle]\r
327     url = params[:url]\r
328     type = params[:type]\r
329     if url\r
330       add_rss(m, params)\r
331     end\r
332     feed = @feeds.fetch(handle.downcase, nil)\r
333     if feed\r
334       if feed.add_watch(m.replyto)\r
335         watchRss(feed, m)\r
336         m.okay\r
337       else\r
338         m.reply "Already watching #{feed.handle}"\r
339       end\r
340     else\r
341       m.reply "Couldn't watch feed #{handle} (no such feed found)"\r
342     end\r
343   end\r
344 \r
345   def unwatch_rss(m, params, pass=false)\r
346     handle = params[:handle].downcase\r
347     unless @feeds.has_key?(handle)\r
348       m.reply("dunno that feed")\r
349       return\r
350     end\r
351     feed = @feeds[handle]\r
352     if feed.rm_watch(m.replyto)\r
353       m.reply "#{m.replyto} has been removed from the watchlist for #{feed.handle}"\r
354     else\r
355       m.reply("#{m.replyto} wasn't watching #{feed.handle}") unless pass\r
356     end\r
357     if !feed.watched?\r
358       stop_watch(handle)\r
359     end\r
360     return feed\r
361   end\r
362 \r
363   def rewatch_rss(m=nil, params=nil)\r
364     stop_watches\r
365 \r
366     # Read watches from list.\r
367     watchlist.each{ |handle, feed|\r
368       watchRss(feed, m)\r
369     }\r
370     m.okay if m\r
371   end\r
372 \r
373   private\r
374   def watchRss(feed, m=nil)\r
375     if @watch.has_key?(feed.handle)\r
376       report_problem("watcher thread for #{feed.handle} is already running", nil, m)\r
377       return\r
378     end\r
379     status = Hash.new\r
380     status[:oldItems] = []\r
381     status[:firstRun] = true\r
382     status[:failures] = 0\r
383     @watch[feed.handle] = @bot.timer.add(0, status) {\r
384       debug "watcher for #{feed} started"\r
385       oldItems = status[:oldItems]\r
386       firstRun = status[:firstRun]\r
387       failures = status[:failures]\r
388       begin\r
389         debug "fetching #{feed}"\r
390         title = newItems = nil\r
391         title, newItems = fetchRss(feed)\r
392         unless newItems\r
393           debug "no items in feed #{feed}"\r
394           failures +=1\r
395         else\r
396           debug "Checking if new items are available for #{feed}"\r
397           if firstRun\r
398             debug "First run, we'll see next time"\r
399             firstRun = false\r
400           else\r
401             otxt = oldItems.map { |item| item.to_s }\r
402             dispItems = newItems.reject { |item|\r
403               otxt.include?(item.to_s)\r
404             }\r
405             if dispItems.length > 0\r
406               debug "Found #{dispItems.length} new items in #{feed}"\r
407               # When displaying watched feeds, publish them from older to newer\r
408               dispItems.reverse.each { |item|\r
409                 printFormattedRss(feed, item)\r
410               }\r
411             else\r
412               debug "No new items found in #{feed}"\r
413             end\r
414           end\r
415           oldItems = newItems.dup\r
416         end\r
417       rescue Exception => e\r
418         error "Error watching #{feed}: #{e.inspect}"\r
419         debug e.backtrace.join("\n")\r
420         failures += 1\r
421       end\r
422 \r
423       status[:oldItems] = oldItems\r
424       status[:firstRun] = firstRun\r
425       status[:failures] = failures\r
426 \r
427       seconds = @bot.config['rss.thread_sleep'] * (failures + 1)\r
428       seconds += seconds * (rand(100)-50)/100\r
429       debug "watcher for #{feed} going to sleep #{seconds} seconds.."\r
430       @bot.timer.reschedule(@watch[feed.handle], seconds)\r
431     }\r
432     debug "watcher for #{feed} added"\r
433   end\r
434 \r
435   def printFormattedRss(feed, item, opts=nil)\r
436     places = feed.watchers\r
437     handle = "::#{feed.handle}:: "\r
438     date = String.new\r
439     if opts\r
440       places = opts[:places] if opts.key?(:places)\r
441       handle = opts[:handle].to_s if opts.key?(:handle)\r
442       if opts.key?(:date) && opts[:date]\r
443         if item.respond_to?(:pubDate) \r
444           if item.pubDate.class <= Time\r
445             date = item.pubDate.strftime("%Y/%m/%d %H.%M.%S")\r
446           else\r
447             date = item.pubDate.to_s\r
448           end\r
449         elsif  item.respond_to?(:date)\r
450           if item.date.class <= Time\r
451             date = item.date.strftime("%Y/%m/%d %H.%M.%S")\r
452           else\r
453             date = item.date.to_s\r
454           end\r
455         else\r
456           date = "(no date)"\r
457         end\r
458         date += " :: "\r
459       end\r
460     end\r
461     title = "#{Bold}#{item.title.chomp.riphtml}#{Bold}" if item.title\r
462     desc = item.description.gsub(/\s+/,' ').strip.riphtml if item.description\r
463     link = item.link.chomp if item.link\r
464     line1 = nil\r
465     line2 = nil\r
466     case feed.type\r
467     when 'blog'\r
468       line1 = "#{handle}#{date}#{item.category.content} blogged at #{link}"\r
469       line2 = "#{handle}#{title} - #{desc}"\r
470     when 'forum'\r
471       line1 = "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
472     when 'wiki'\r
473       line1 = "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link} has been edited by #{item.dc_creator}. #{desc}"\r
474     when 'gmane'\r
475       line1 = "#{handle}#{date}Message #{title} sent by #{item.dc_creator}. #{desc}"\r
476     when 'trac'\r
477       line1 = "#{handle}#{date}#{title} @ #{link}"\r
478       unless item.title =~ /^Changeset \[(\d+)\]/\r
479         line2 = "#{handle}#{date}#{desc}"\r
480       end\r
481     else\r
482       line1 = "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
483     end\r
484     places.each { |loc|\r
485       @bot.say loc, line1, :overlong => :truncate\r
486       next unless line2\r
487       @bot.say loc, line2, :overlong => :truncate\r
488     }\r
489   end\r
490 \r
491   def fetchRss(feed, m=nil)\r
492     begin\r
493       # Use 60 sec timeout, cause the default is too low\r
494       xml = @bot.httputil.get_cached(feed.url, 60, 60)\r
495     rescue URI::InvalidURIError, URI::BadURIError => e\r
496       report_problem("invalid rss feed #{feed.url}", e, m)\r
497       return\r
498     rescue => e\r
499       report_problem("error getting #{feed.url}", e, m)\r
500       return\r
501     end\r
502     debug "fetched #{feed}"\r
503     unless xml\r
504       report_problem("reading feed #{feed} failed", nil, m)\r
505       return\r
506     end\r
507 \r
508     begin\r
509       ## do validate parse\r
510       rss = RSS::Parser.parse(xml)\r
511       debug "parsed #{feed}"\r
512     rescue RSS::InvalidRSSError\r
513       ## do non validate parse for invalid RSS 1.0\r
514       begin\r
515         rss = RSS::Parser.parse(xml, false)\r
516       rescue RSS::Error => e\r
517         report_problem("parsing rss stream failed, whoops =(", e, m)\r
518         return\r
519       end\r
520     rescue RSS::Error => e\r
521       report_problem("parsing rss stream failed, oioi", e, m)\r
522       return\r
523     rescue => e\r
524       report_problem("processing error occured, sorry =(", e, m)\r
525       return\r
526     end\r
527     items = []\r
528     if rss.nil?\r
529       report_problem("#{feed} does not include RSS 1.0 or 0.9x/2.0", nil, m)\r
530     else\r
531       begin\r
532         rss.output_encoding = 'UTF-8'\r
533       rescue RSS::UnknownConvertMethod => e\r
534         report_problem("bah! something went wrong =(", e, m)\r
535         return\r
536       end\r
537       rss.channel.title ||= "Unknown"\r
538       title = rss.channel.title\r
539       rss.items.each do |item|\r
540         item.title ||= "Unknown"\r
541         items << item\r
542       end\r
543     end\r
544 \r
545     if items.empty?\r
546       report_problem("no items found in the feed, maybe try weed?", e, m)\r
547       return\r
548     end\r
549     return [title, items]\r
550   end\r
551 end\r
552 \r
553 plugin = RSSFeedsPlugin.new\r
554 \r
555 plugin.map 'rss show :handle :limit',\r
556   :action => 'show_rss',\r
557   :requirements => {:limit => /^\d+(?:\.\.\d+)?$/},\r
558   :defaults => {:limit => 5}\r
559 plugin.map 'rss list :handle',\r
560   :action => 'list_rss',\r
561   :defaults =>  {:handle => nil}\r
562 plugin.map 'rss watched :handle',\r
563   :action => 'watched_rss',\r
564   :defaults =>  {:handle => nil}\r
565 plugin.map 'rss add :handle :url :type',\r
566   :action => 'add_rss',\r
567   :defaults => {:type => nil}\r
568 plugin.map 'rss del :handle',\r
569   :action => 'del_rss'\r
570 plugin.map 'rss delete :handle',\r
571   :action => 'del_rss'\r
572 plugin.map 'rss rm :handle',\r
573   :action => 'del_rss'\r
574 plugin.map 'rss replace :handle :url :type',\r
575   :action => 'replace_rss',\r
576   :defaults => {:type => nil}\r
577 plugin.map 'rss forcereplace :handle :url :type',\r
578   :action => 'forcereplace_rss',\r
579   :defaults => {:type => nil}\r
580 plugin.map 'rss watch :handle :url :type',\r
581   :action => 'watch_rss',\r
582   :defaults => {:url => nil, :type => nil}\r
583 plugin.map 'rss unwatch :handle',\r
584   :action => 'unwatch_rss'\r
585 plugin.map 'rss rmwatch :handle',\r
586   :action => 'unwatch_rss'\r
587 plugin.map 'rss rewatch',\r
588   :action => 'rewatch_rss'\r
589 \r