]> git.netwichtig.de Git - user/henk/code/ruby/rbot.git/blobdiff - data/rbot/plugins/rss.rb
Fix misc RSS stuff: reverse publishing order of watched feeds, correct a config optio...
[user/henk/code/ruby/rbot.git] / data / rbot / plugins / rss.rb
index 583e04ec33210cb5c718ceec40b6e34133e785a6..e276d0a44bc3343d208e1a19f8e34e6b37e28323 100644 (file)
@@ -1,18 +1,23 @@
+#-- vim:sw=2:et\r
+#++\r
+#\r
 # RSS feed plugin for RubyBot\r
 # (c) 2004 Stanislav Karchebny <berkus@madfire.net>\r
 # (c) 2005 Ian Monroe <ian@monroe.nu>\r
 # (c) 2005 Mark Kretschmann <markey@web.de>\r
+# (c) 2006 Giuseppe Bilotta <giuseppe.bilotta@gmail.com>\r
+#\r
 # Licensed under MIT License.\r
 \r
 require 'rss/parser'\r
 require 'rss/1.0'\r
 require 'rss/2.0'\r
 require 'rss/dublincore'\r
-begin\r
-  # require 'rss/dublincore/2.0'\r
-rescue\r
-  warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
-end\r
+begin\r
+#   require 'rss/dublincore/2.0'\r
+rescue\r
+  warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
+end\r
 \r
 class ::String\r
   def shorten(limit)\r
@@ -54,27 +59,57 @@ class ::RssBlob
   end\r
 \r
   def watched_by?(who)\r
-    @watchers.include?(who)\r
+    # We need to check bot 'who' itself and the String form, because rss\r
+    # watches added before the new Irc framework represented watchers as\r
+    # Strings whereas they are now Channels.\r
+    #\r
+    @watchers.include?(who) || @watchers.include?(who.to_s) \r
   end\r
 \r
   def add_watch(who)\r
     if watched_by?(who)\r
       return nil\r
     end\r
-    @watchers << who unless watched_by?(who)\r
+    # TODO FIXME? should we just store watchers as Strings instead?\r
+    # This should then be @watchers << who.downcase\r
+    @watchers << who\r
     return who\r
   end\r
 \r
   def rm_watch(who)\r
+    # See comment to watched_by?\r
+    #\r
     @watchers.delete(who)\r
+    @watchers.delete(who.to_s)\r
+  end\r
+\r
+  def to_a\r
+    [@handle,@url,@type,@watchers]\r
   end\r
 \r
-  #  def to_ary\r
-  #    [@handle,@url,@type,@watchers]\r
-  #  end\r
+  def to_s(watchers=false)\r
+    if watchers\r
+      a = self.to_a.flatten\r
+    else\r
+      a = self.to_a[0,3]\r
+    end\r
+    a.join(" | ")\r
+  end\r
 end\r
 \r
 class RSSFeedsPlugin < Plugin\r
+  BotConfig.register BotConfigIntegerValue.new('rss.head_max',\r
+    :default => 30, :validate => Proc.new{|v| v > 0 && v < 200},\r
+    :desc => "How many characters to use of a RSS item header")\r
+\r
+  BotConfig.register BotConfigIntegerValue.new('rss.text_max',\r
+    :default => 90, :validate => Proc.new{|v| v > 0 && v < 400},\r
+    :desc => "How many characters to use of a RSS item text")\r
+\r
+  BotConfig.register BotConfigIntegerValue.new('rss.thread_sleep',\r
+    :default => 300, :validate => Proc.new{|v| v > 30},\r
+    :desc => "How many seconds to sleep before checking RSS feeds again")\r
+\r
   @@watchThreads = Hash.new\r
   @@mutex = Mutex.new\r
 \r
@@ -115,23 +150,23 @@ class RSSFeedsPlugin < Plugin
   def help(plugin,topic="")\r
     case topic\r
     when "show"\r
-      "rss show +handle+ [+limit+] : show +limit+ (default: 5, max: 15) entries from rss +handle+"\r
+      "rss show #{Bold}handle#{Bold} [#{Bold}limit#{Bold}] : show #{Bold}limit#{Bold} (default: 5, max: 15) entries from rss #{Bold}handle#{Bold}; #{Bold}limit#{Bold} can also be in the form a..b, to display a specific range of items"\r
     when "list"\r
-      "rss list [+handle+] : list all rss feeds (matching +handle+)"\r
+      "rss list [#{Bold}handle#{Bold}] : list all rss feeds (matching #{Bold}handle#{Bold})"\r
     when "watched"\r
-      "rss watched [+handle+] : list all watched rss feeds (matching +handle+)"\r
+      "rss watched [#{Bold}handle#{Bold}] : list all watched rss feeds (matching #{Bold}handle#{Bold})"\r
     when "add"\r
-      "rss add +handle+ +url+ [+type+] : add a new rss called +handle+ from url +url+ (of type +type+)"\r
+      "rss add #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : add a new rss called #{Bold}handle#{Bold} from url #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
     when /^(del(ete)?|rm)$/\r
-      "rss del(ete)|rm +handle+ : delete rss feed +handle+"\r
+      "rss del(ete)|rm #{Bold}handle#{Bold} : delete rss feed #{Bold}handle#{Bold}"\r
     when "replace"\r
-      "rss replace +handle+ +url+ [+type+] : try to replace the url of rss called +handle+ with +url+ (of type +type+); only works if nobody else is watching it"\r
+      "rss replace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : try to replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold}); only works if nobody else is watching it"\r
     when "forcereplace"\r
-      "rss forcereplace +handle+ +url+ [+type+] : replace the url of rss called +handle+ with +url+ (of type +type+)"\r
+      "rss forcereplace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
     when "watch"\r
-      "rss watch +handle+ [+url+ [+type+]] : watch rss +handle+ for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
+      "rss watch #{Bold}handle#{Bold} [#{Bold}url#{Bold} [#{Bold}type#{Bold}]] : watch rss #{Bold}handle#{Bold} for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
     when /(un|rm)watch/\r
-      "rss unwatch|rmwatch +handle+ : stop watching rss +handle+ for changes"\r
+      "rss unwatch|rmwatch #{Bold}handle#{Bold} : stop watching rss #{Bold}handle#{Bold} for changes"\r
     when "rewatch"\r
       "rss rewatch : restart threads that watch for changes in watched rss"\r
     else\r
@@ -139,37 +174,69 @@ class RSSFeedsPlugin < Plugin
     end\r
   end\r
 \r
-  def report_problem(report, m=nil)\r
-    if m\r
+  def report_problem(report, e=nil, m=nil)\r
+    if m && m.respond_to?(:reply)\r
       m.reply report\r
     else\r
       warning report\r
     end\r
+    if e\r
+      debug e.inspect\r
+      debug e.backtrace.join("\n") if e.respond_to?(:backtrace)\r
+    end\r
   end\r
 \r
   def show_rss(m, params)\r
     handle = params[:handle]\r
-    limit = params[:limit].to_i\r
-    limit = 15 if limit > 15\r
-    limit = 1 if limit <= 0\r
+    lims = params[:limit].to_s.match(/(\d+)(?:..(\d+))?/)\r
+    debug lims.to_a.inspect\r
+    if lims[2]\r
+      ll = [[lims[1].to_i-1,lims[2].to_i-1].min,  0].max\r
+      ul = [[lims[1].to_i-1,lims[2].to_i-1].max, 14].min\r
+      rev = lims[1].to_i > lims[2].to_i\r
+    else\r
+      ll = 0\r
+      ul = [[lims[1].to_i-1, 1].max, 14].min\r
+      rev = false\r
+    end\r
+\r
     feed = @feeds.fetch(handle, nil)\r
     unless feed\r
       m.reply "I don't know any feeds named #{handle}"\r
       return\r
     end\r
-    m.reply("Please wait, querying...")\r
+\r
+    m.reply "lemme fetch it..."\r
     title = items = nil\r
     @@mutex.synchronize {\r
       title, items = fetchRss(feed, m)\r
     }\r
     return unless items\r
-    m.reply("Channel : #{title}")\r
-    # TODO: optional by-date sorting if dates present\r
-    items[0...limit].reverse.each do |item|\r
-      printRssItem(m.replyto,item)\r
+\r
+    # We sort the feeds in freshness order (newer ones first)\r
+    items = freshness_sort(items)\r
+    disp = items[ll..ul]\r
+    disp.reverse! if rev\r
+\r
+    m.reply "Channel : #{title}"\r
+    disp.each do |item|\r
+      printFormattedRss(feed, item, {:places=>[m.replyto],:handle=>nil,:date=>true})\r
     end\r
   end\r
 \r
+  def itemDate(item,ex=nil)\r
+    return item.pubDate if item.respond_to?(:pubDate)\r
+    return item.date if item.respond_to?(:date)\r
+    return ex\r
+  end\r
+\r
+  def freshness_sort(items)\r
+    notime = Time.at(0)\r
+    items.sort { |a, b|\r
+      itemDate(b, notime) <=> itemDate(a, notime)\r
+    }\r
+  end\r
+\r
   def list_rss(m, params)\r
     wanted = params[:handle]\r
     reply = String.new\r
@@ -208,6 +275,10 @@ class RSSFeedsPlugin < Plugin
   def add_rss(m, params, force=false)\r
     handle = params[:handle]\r
     url = params[:url]\r
+    unless url.match(/https?/)\r
+      m.reply "I only deal with feeds from HTTP sources, so I can't use #{url} (maybe you forgot the handle?)"\r
+      return\r
+    end\r
     type = params[:type]\r
     if @feeds.fetch(handle, nil) && !force\r
       m.reply "There is already a feed named #{handle} (URL: #{@feeds[handle].url})"\r
@@ -306,7 +377,7 @@ class RSSFeedsPlugin < Plugin
     return feed\r
   end\r
 \r
-  def rewatch_rss(m=nil)\r
+  def rewatch_rss(m=nil, params=nil)\r
     kill_threads\r
 \r
     # Read watches from list.\r
@@ -319,81 +390,109 @@ class RSSFeedsPlugin < Plugin
   private\r
   def watchRss(feed, m=nil)\r
     if @@watchThreads.has_key?(feed.handle)\r
-      report_problem("watcher thread for #{feed.handle} is already running", m)\r
+      report_problem("watcher thread for #{feed.handle} is already running", nil, m)\r
       return\r
     end\r
     @@watchThreads[feed.handle] = Thread.new do\r
-      debug 'watchRss thread started.'\r
+      debug "watcher for #{feed} started"\r
       oldItems = []\r
       firstRun = true\r
+      failures = 0\r
       loop do\r
         begin\r
-          debug 'Fetching rss feed...'\r
+          debug "fetching #{feed}"\r
           title = newItems = nil\r
           @@mutex.synchronize {\r
             title, newItems = fetchRss(feed)\r
           }\r
           unless newItems\r
-            m.reply "no items in feed"\r
-            break\r
-          end\r
-          debug "Checking if new items are available"\r
-          if firstRun\r
-            debug "First run, we'll see next time"\r
-            firstRun = false\r
+            debug "no items in feed #{feed}"\r
+            failures +=1\r
           else\r
-            otxt = oldItems.map { |item| item.to_s }\r
-            dispItems = newItems.reject { |item|\r
-              otxt.include?(item.to_s)\r
-            }\r
-            if dispItems.length > 0\r
-              debug "Found #{dispItems.length} new items"\r
-              dispItems.each { |item|\r
-                debug "showing #{item.title}"\r
-                @@mutex.synchronize {\r
-                  printFormattedRss(feed.watchers, item, feed.type)\r
-                }\r
-              }\r
+            debug "Checking if new items are available for #{feed}"\r
+            if firstRun\r
+              debug "First run, we'll see next time"\r
+              firstRun = false\r
             else\r
-              debug "No new items found"\r
+              otxt = oldItems.map { |item| item.to_s }\r
+              dispItems = newItems.reject { |item|\r
+                otxt.include?(item.to_s)\r
+              }\r
+              if dispItems.length > 0\r
+                debug "Found #{dispItems.length} new items in #{feed}"\r
+                # When displaying watched feeds, publish them from older to newer\r
+                dispItems.reverse.each { |item|\r
+                  @@mutex.synchronize {\r
+                    printFormattedRss(feed, item)\r
+                  }\r
+                }\r
+              else\r
+                debug "No new items found in #{feed}"\r
+              end\r
             end\r
+            oldItems = newItems.dup\r
           end\r
-          oldItems = newItems.dup\r
         rescue Exception => e\r
-          error "IO failed: #{e.inspect}"\r
+          error "Error watching #{feed}: #{e.inspect}"\r
           debug e.backtrace.join("\n")\r
+          failures += 1\r
         end\r
 \r
-        seconds = 150 + rand(100)\r
-        debug "Thread going to sleep #{seconds} seconds.."\r
+        seconds = @bot.config['rss.thread_sleep'] * (failures + 1)\r
+        seconds += seconds * (rand(100)-50)/100\r
+        debug "watcher for #{feed} going to sleep #{seconds} seconds.."\r
         sleep seconds\r
       end\r
     end\r
   end\r
 \r
-  def printRssItem(loc,item)\r
-    if item.kind_of?(RSS::RDF::Item)\r
-      @bot.say loc, item.title.chomp.riphtml.shorten(20) + " @ " + item.link\r
-    else\r
-      @bot.say loc, "#{item.pubDate.to_s.chomp+": " if item.pubDate}#{item.title.chomp.riphtml.shorten(20)+" :: " if item.title}#{" @ "+item.link.chomp if item.link}"\r
-    end\r
-  end\r
-\r
-  def printFormattedRss(locs, item, type)\r
-    locs.each { |loc|\r
-      case type\r
-      when 'amarokblog'\r
-        @bot.say loc, "::#{item.category.content} just blogged at #{item.link}::"\r
-        @bot.say loc, "::#{item.title.chomp.riphtml} - #{item.description.chomp.riphtml.shorten(60)}::"\r
-      when 'amarokforum'\r
-        @bot.say loc, "::Forum:: #{item.pubDate.to_s.chomp+": " if item.pubDate}#{item.title.chomp.riphtml+" :: " if item.title}#{" @ "+item.link.chomp if item.link}"\r
-      when 'mediawiki'\r
-        @bot.say loc, "::Wiki:: #{item.title} has been edited by #{item.dc_creator}. #{item.description.split("\n")[0].chomp.riphtml.shorten(60)} #{item.link} ::"\r
-        debug "mediawiki #{item.title}"\r
-      when "gmame"\r
-        @bot.say loc, "::amarok-devel:: Message #{item.title} sent by #{item.dc_creator}. #{item.description.split("\n")[0].chomp.riphtml.shorten(60)}::"\r
+  def printFormattedRss(feed, item, opts=nil)\r
+    places = feed.watchers\r
+    handle = "::#{feed.handle}:: "\r
+    date = String.new\r
+    if opts\r
+      places = opts[:places] if opts.key?(:places)\r
+      handle = opts[:handle].to_s if opts.key?(:handle)\r
+      if opts.key?(:date) && opts[:date]\r
+        if item.respond_to?(:pubDate) \r
+          if item.pubDate.class <= Time\r
+            date = item.pubDate.strftime("%Y/%m/%d %H.%M.%S")\r
+          else\r
+            date = item.pubDate.to_s\r
+          end\r
+        elsif  item.respond_to?(:date)\r
+          if item.date.class <= Time\r
+            date = item.date.strftime("%Y/%m/%d %H.%M.%S")\r
+          else\r
+            date = item.date.to_s\r
+          end\r
+        else\r
+          date = "(no date)"\r
+        end\r
+        date += " :: "\r
+      end\r
+    end\r
+    title = "#{Bold}#{item.title.chomp.riphtml}#{Bold}" if item.title\r
+    desc = item.description.gsub(/\s+/,' ').strip.riphtml.shorten(@bot.config['rss.text_max']) if item.description\r
+    link = item.link.chomp if item.link\r
+    places.each { |loc|\r
+      case feed.type\r
+      when 'blog'\r
+        @bot.say loc, "#{handle}#{date}#{item.category.content} blogged at #{link}"\r
+        @bot.say loc, "#{handle}#{title} - #{desc}"\r
+      when 'forum'\r
+        @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
+      when 'wiki'\r
+        @bot.say loc, "#{handle}#{date}#{item.title} has been edited by #{item.dc_creator}. #{desc} #{link}"\r
+      when 'gmame'\r
+        @bot.say loc, "#{handle}#{date}Message #{title} sent by #{item.dc_creator}. #{desc}"\r
+      when 'trac'\r
+        @bot.say loc, "#{handle}#{date}#{title} @ #{link}"\r
+        unless item.title =~ /^Changeset \[(\d+)\]/\r
+          @bot.say loc, "#{handle}#{date}#{desc}"\r
+        end\r
       else\r
-        printRssItem(loc,item)\r
+        @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
       end\r
     }\r
   end\r
@@ -401,46 +500,49 @@ class RSSFeedsPlugin < Plugin
   def fetchRss(feed, m=nil)\r
     begin\r
       # Use 60 sec timeout, cause the default is too low\r
-      xml = @bot.httputil.get_cached(feed.url,60,60)\r
+      # Do not use get_cached for RSS until we have proper cache handling\r
+      # xml = @bot.httputil.get_cached(feed.url,60,60)\r
+      xml = @bot.httputil.get(feed.url,60,60)\r
     rescue URI::InvalidURIError, URI::BadURIError => e\r
-      report_problem("invalid rss feed #{feed.url}", m)\r
+      report_problem("invalid rss feed #{feed.url}", e, m)\r
+      return\r
+    rescue => e\r
+      report_problem("error getting #{feed.url}", e, m)\r
       return\r
     end\r
-    debug 'fetched'\r
+    debug "fetched #{feed}"\r
     unless xml\r
-      report_problem("reading feed #{url} failed", m)\r
+      report_problem("reading feed #{feed} failed", nil, m)\r
       return\r
     end\r
 \r
     begin\r
       ## do validate parse\r
       rss = RSS::Parser.parse(xml)\r
-      debug 'parsed'\r
+      debug "parsed #{feed}"\r
     rescue RSS::InvalidRSSError\r
       ## do non validate parse for invalid RSS 1.0\r
       begin\r
         rss = RSS::Parser.parse(xml, false)\r
-      rescue RSS::Error\r
-        report_problem("parsing rss stream failed, whoops =(", m)\r
+      rescue RSS::Error => e\r
+        report_problem("parsing rss stream failed, whoops =(", e, m)\r
         return\r
       end\r
-    rescue RSS::Error\r
-      report_problem("parsing rss stream failed, oioi", m)\r
+    rescue RSS::Error => e\r
+      report_problem("parsing rss stream failed, oioi", e, m)\r
       return\r
     rescue => e\r
-      report_problem("processing error occured, sorry =(", m)\r
-      debug e.inspect\r
-      debug e.backtrace.join("\n")\r
+      report_problem("processing error occured, sorry =(", e, m)\r
       return\r
     end\r
     items = []\r
     if rss.nil?\r
-      report_problem("#{feed.url} does not include RSS 1.0 or 0.9x/2.0",m)\r
+      report_problem("#{feed} does not include RSS 1.0 or 0.9x/2.0", nil, m)\r
     else\r
       begin\r
-        rss.output_encoding = "euc-jp"\r
-      rescue RSS::UnknownConvertMethod\r
-        report_problem("bah! something went wrong =(",m)\r
+        rss.output_encoding = 'UTF-8'\r
+      rescue RSS::UnknownConvertMethod => e\r
+        report_problem("bah! something went wrong =(", e, m)\r
         return\r
       end\r
       rss.channel.title ||= "Unknown"\r
@@ -452,7 +554,7 @@ class RSSFeedsPlugin < Plugin
     end\r
 \r
     if items.empty?\r
-      report_problem("no items found in the feed, maybe try weed?",m)\r
+      report_problem("no items found in the feed, maybe try weed?", e, m)\r
       return\r
     end\r
     return [title, items]\r
@@ -463,7 +565,7 @@ plugin = RSSFeedsPlugin.new
 \r
 plugin.map 'rss show :handle :limit',\r
   :action => 'show_rss',\r
-  :requirements => {:limit => /^\d+$/},\r
+  :requirements => {:limit => /^\d+(?:\.\.\d+)?$/},\r
   :defaults => {:limit => 5}\r
 plugin.map 'rss list :handle',\r
   :action => 'list_rss',\r
@@ -493,5 +595,6 @@ plugin.map 'rss unwatch :handle',
   :action => 'unwatch_rss'\r
 plugin.map 'rss rmwatch :handle',\r
   :action => 'unwatch_rss'\r
-plugin.map 'rss rewatch :handle',\r
+plugin.map 'rss rewatch',\r
   :action => 'rewatch_rss'\r
+\r