]> git.netwichtig.de Git - user/henk/code/ruby/rbot.git/blobdiff - lib/rbot/irc.rb
Previous attempt at cleaning up the prefix matcher were too restrictive, try using...
[user/henk/code/ruby/rbot.git] / lib / rbot / irc.rb
index 6d46f75fc3500a47730bb30c0d3382378699f900..c2c1e82fdd518c30889a1eed9cad0830857ea9de 100644 (file)
@@ -475,6 +475,103 @@ class ArrayOf < Array
 end\r
 \r
 \r
+# We extend the Regexp class with an Irc module which will contain some\r
+# Irc-specific regexps\r
+#\r
+class Regexp\r
+\r
+  # We start with some general-purpose ones which will be used in the\r
+  # Irc module too, but are useful regardless\r
+  DIGITS = /\d+/\r
+  HEX_DIGIT = /[0-9A-Fa-f]/\r
+  HEX_DIGITS = /#{HEX_DIGIT}+/\r
+  HEX_OCTET = /#{HEX_DIGIT}#{HEX_DIGIT}?/\r
+  DEC_OCTET = /[01]?\d?\d|2[0-4]\d|25[0-5]/\r
+  DEC_IP_ADDR = /#{DEC_OCTET}.#{DEC_OCTET}.#{DEC_OCTET}.#{DEC_OCTET}/\r
+  HEX_IP_ADDR = /#{HEX_OCTET}.#{HEX_OCTET}.#{HEX_OCTET}.#{HEX_OCTET}/\r
+  IP_ADDR = /#{DEC_IP_ADDR}|#{HEX_IP_ADDR}/\r
+\r
+  # IPv6, from Resolv::IPv6, without the \A..\z anchors\r
+  HEX_16BIT = /#{HEX_DIGIT}{1,4}/\r
+  IP6_8Hex = /(?:#{HEX_16BIT}:){7}#{HEX_16BIT}/\r
+  IP6_CompressedHex = /((?:#{HEX_16BIT}(?::#{HEX_16BIT})*)?)::((?:#{HEX_16BIT}(?::#{HEX_16BIT})*)?)/\r
+  IP6_6Hex4Dec = /((?:#{HEX_16BIT}:){6,6})#{DEC_IP_ADDR}/\r
+  IP6_CompressedHex4Dec = /((?:#{HEX_16BIT}(?::#{HEX_16BIT})*)?)::((?:#{HEX_16BIT}:)*)#{DEC_IP_ADDR}/\r
+  IP6_ADDR = /(?:#{IP6_8Hex})|(?:#{IP6_CompressedHex})|(?:#{IP6_6Hex4Dec})|(?:#{IP6_CompressedHex4Dec})/\r
+\r
+  # We start with some IRC related regular expressions, used to match\r
+  # Irc::User nicks and users and Irc::Channel names\r
+  #\r
+  # For each of them we define two versions of the regular expression:\r
+  #  * a generic one, which should match for any server but may turn out to\r
+  #    match more than a specific server would accept\r
+  #  * an RFC-compliant matcher\r
+  #\r
+  module Irc\r
+\r
+    # Channel-name-matching regexps\r
+    CHAN_FIRST = /[#&+]/\r
+    CHAN_SAFE = /![A-Z0-9]{5}/\r
+    CHAN_ANY = /[^\x00\x07\x0A\x0D ,:]/\r
+    GEN_CHAN = /(?:#{CHAN_FIRST}|#{CHAN_SAFE})#{CHAN_ANY}+/\r
+    RFC_CHAN = /#{CHAN_FIRST}#{CHAN_ANY}{1,49}|#{CHAN_SAFE}#{CHAN_ANY}{1,44}/\r
+\r
+    # Nick-matching regexps\r
+    SPECIAL_CHAR = /[\x5b-\x60\x7b-\x7d]/\r
+    NICK_FIRST = /#{SPECIAL_CHAR}|[[:alpha:]]/\r
+    NICK_ANY = /#{SPECIAL_CHAR}|[[:alnum:]]|-/\r
+    GEN_NICK = /#{NICK_FIRST}#{NICK_ANY}+/\r
+    RFC_NICK = /#{NICK_FIRST}#{NICK_ANY}{0,8}/\r
+\r
+    USER_CHAR = /[^\x00\x0a\x0d @]/\r
+    GEN_USER = /#{USER_CHAR}+/\r
+\r
+    # Host-matching regexps\r
+    HOSTNAME_COMPONENT = /[[:alnum:]](?:[[:alnum:]]|-)*[[:alnum:]]*/\r
+    HOSTNAME = /#{HOSTNAME_COMPONENT}(?:\.#{HOSTNAME_COMPONENT})*/\r
+    HOSTADDR = /#{IP_ADDR}|#{IP6_ADDR}/\r
+\r
+    GEN_HOST = /#{HOSTNAME}|#{HOSTADDR}/\r
+\r
+    # # FreeNode network replaces the host of affiliated users with\r
+    # # 'virtual hosts' \r
+    # # FIXME we need the true syntax to match it properly ...\r
+    # PDPC_HOST_PART = /[0-9A-Za-z.-]+/\r
+    # PDPC_HOST = /#{PDPC_HOST_PART}(?:\/#{PDPC_HOST_PART})+/\r
+\r
+    # # NOTE: the final optional and non-greedy dot is needed because some\r
+    # # servers (e.g. FreeNode) send the hostname of the services as "services."\r
+    # # which is not RFC compliant, but sadly done.\r
+    # GEN_HOST_EXT = /#{PDPC_HOST}|#{GEN_HOST}\.??/ \r
+\r
+    # Sadly, different networks have different, RFC-breaking ways of cloaking\r
+    # the actualy host address: see above for an example to handle FreeNode.\r
+    # Another example would be Azzurra, wich also inserts a "=" in the\r
+    # cloacked host. So let's just not care about this and go with the simplest\r
+    # thing:\r
+    GEN_HOST_EXT = /\S+/\r
+\r
+    # User-matching Regexp\r
+    GEN_USER_ID = /(#{GEN_NICK})(?:(?:!(#{GEN_USER}))?@(#{GEN_HOST_EXT}))?/\r
+\r
+    # Things such has the BIP proxy send invalid nicks in a complete netmask,\r
+    # so we want to match this, rather: this matches either a compliant nick\r
+    # or a a string with a very generic nick, a very generic hostname after an\r
+    # @ sign, and an optional user after a !\r
+    BANG_AT = /#{GEN_NICK}|\S+?(?:!\S+?)?@\S+?/\r
+\r
+    # # For Netmask, we want to allow wildcards * and ? in the nick\r
+    # # (they are already allowed in the user and host part\r
+    # GEN_NICK_MASK = /(?:#{NICK_FIRST}|[?*])?(?:#{NICK_ANY}|[?*])+/\r
+\r
+    # # Netmask-matching Regexp\r
+    # GEN_MASK = /(#{GEN_NICK_MASK})(?:(?:!(#{GEN_USER}))?@(#{GEN_HOST_EXT}))?/\r
+\r
+  end\r
+\r
+end\r
+\r
+\r
 module Irc\r
 \r
 \r
@@ -517,7 +614,9 @@ module Irc
       # Now we can see if the given string _str_ is an actual Netmask\r
       if str.respond_to?(:to_str)\r
         case str.to_str\r
-        when /^(?:(\S+?)(?:!(\S+)@(?:(\S+))?)?)?$/\r
+          # We match a pretty generic string, to work around non-compliant\r
+          # servers\r
+        when /^(?:(\S+?)(?:(?:!(\S+?))?@(\S+))?)?$/\r
           # We do assignment using our internal methods\r
           self.nick = $1\r
           self.user = $2\r
@@ -1331,8 +1430,8 @@ module Irc
           :typec => nil, # Type C: needs a parameter when set\r
           :typed => nil  # Type D: must not have a parameter\r
         },\r
-        :channellen => 200,\r
-        :chantypes => "#&",\r
+        :channellen => 50,\r
+        :chantypes => "#&!+",\r
         :excepts => nil,\r
         :idchan => {},\r
         :invex => nil,\r
@@ -1370,6 +1469,7 @@ module Irc
     def clear\r
       reset_lists\r
       reset_capabilities\r
+      @hostname = @version = @usermodes = @chanmodes = nil\r
     end\r
 \r
     # This method is used to parse a 004 RPL_MY_INFO line\r