Add text to the title if the text is given below the coordinates.
[philipp/winterrodeln/wrpylib.git] / wrpylib / mwmarkup.py
index 46e11e472c622e41814223b7fb6425fc70641801..d0543e0ea7c82a6fabc7c33dddefe327a05f8cdd 100644 (file)
@@ -10,6 +10,7 @@ that convinced me. However, here are the links:
 * mwlib http://code.pediapress.com/wiki/wiki
 """
 import re
 * mwlib http://code.pediapress.com/wiki/wiki
 """
 import re
+import xml.etree.ElementTree
 
 
 def find_template(wikitext, template_title):
 
 
 def find_template(wikitext, template_title):
@@ -81,20 +82,131 @@ def split_template(template):
     return template_title, params
 
 
     return template_title, params
 
 
-def create_template(template_title, anonym_params=[], named_param_keys=[], named_param_values=[], as_table=False):
+def create_template(template_title, anonym_params=[], named_param_keys=[], named_param_values=[], as_table=False, as_table_keylen=None):
     """Formats a MediaWiki template.
     :param template_title: Unicode string with the template name
     :param anonym_params: list with parameters without keys
     :param named_param_keys: list with keys of named parameters
     :param named_param_values: list with values of named parameters, corresponding to named_param_keys.
     """Formats a MediaWiki template.
     :param template_title: Unicode string with the template name
     :param anonym_params: list with parameters without keys
     :param named_param_keys: list with keys of named parameters
     :param named_param_values: list with values of named parameters, corresponding to named_param_keys.
+    :param as_table: formats the returned template in one row for each parameter
+    :param as_table_keylen: length of the key field. None for "automatic".
     :return: unicode template"""
     pipe_char, equal_char, end_char = (u'\n| ', u' = ', u'\n}}') if as_table else (u'|', u'=', u'}}')
     parts = [u"{{" + template_title]
     parts += anonym_params
     :return: unicode template"""
     pipe_char, equal_char, end_char = (u'\n| ', u' = ', u'\n}}') if as_table else (u'|', u'=', u'}}')
     parts = [u"{{" + template_title]
     parts += anonym_params
-    if as_table: max_key_len = max([len(k) for k in named_param_keys])
+    if as_table and as_table_keylen is None:
+        as_table_keylen = max([len(k) for k in named_param_keys])
     for i in xrange(len(named_param_keys)):
         key = named_param_keys[i]
     for i in xrange(len(named_param_keys)):
         key = named_param_keys[i]
-        if as_table: key = key.ljust(max_key_len)
+        if as_table: key = key.ljust(as_table_keylen)
         parts.append(key + equal_char + named_param_values[i])
     return pipe_char.join(parts) + end_char
 
         parts.append(key + equal_char + named_param_values[i])
     return pipe_char.join(parts) + end_char
 
+
+def parse_googlemap(wikitext):
+    """Parses the (unicode) u'<googlemap ...>content</googlemap>' of the googlemap extension
+    out of a page. If wikitext does not contain the googlemaps extension text None is returned.
+    If the googlemap contains invalid formatted lines, a RuntimeError is raised.
+
+    :param wikitext: wikitext containing the template. Example:
+
+    wikitext = '''
+    <googlemap version="0.9" lat="47.113291" lon="11.272337" zoom="15">
+    (Parkplatz)47.114958,11.266026
+    Parkplatz
+    
+    (Gasthaus) 47.114715, 11.266262, Alt Bärnbad (Gasthaus)
+    6#FF014E9A
+    47.114715,11.266262
+    47.114135,11.268381
+    47.113421,11.269322
+    47.11277,11.269979
+    47.112408,11.271119
+    </googlemap>
+    '''
+    :returns: the tuple (center, zoom, coords, paths).
+        center is the tuple (lon, lat) of the google maps or (None, None) if not provided
+        zoom is the google zoom level as integer or None if not provided
+        coords is a list of (lon, lat, symbol, title) tuples.
+        paths is a list of (style, coords) tuples.
+        coords is again a list of (lot, lat, symbol, title) tuples."""
+
+    def is_coord(line):
+        """Returns True if the line contains a coordinate."""
+        match = re.search('[0-9]{1,2}\.[0-9]+, ?[0-9]{1,2}\.[0-9]+', line)
+        return not match is None
+
+    def is_path(line):
+        """Returns True if the line contains a path style definition."""
+        match = re.match('[0-9]#[0-9a-fA-F]{8}', line)
+        return not match is None
+
+    def parse_coord(line):
+        """Returns (lon, lat, symbol, title). If symbol or text is not present, None is returned."""
+        match = re.match(u'\(([^)]+)\) ?([0-9]{1,2}\.[0-9]+), ?([0-9]{1,2}\.[0-9]+),(.*)', line)
+        if not match is None: return (float(match.group(3)), float(match.group(2)), match.group(1), match.group(4))
+        match = re.match(u'\(([^)]+)\) ?([0-9]{1,2}\.[0-9]+), ?([0-9]{1,2}\.[0-9]+)', line)
+        if not match is None: return (float(match.group(3)), float(match.group(2)), match.group(1), None)
+        match = re.match(u'([0-9]{1,2}\.[0-9]+), ?([0-9]{1,2}\.[0-9]+),(.*)', line)
+        if not match is None: return (float(match.group(2)), float(match.group(1)), None, match.group(3))
+        match = re.match(u'([0-9]{1,2}\.[0-9]+), ?([0-9]{1,2}\.[0-9]+)', line)
+        if not match is None: return (float(match.group(2)), float(match.group(1)), None, None)
+        return RuntimeError(u'Could not parse line ' + line)
+
+    regexp = re.compile(u"(<googlemap[^>]*>)(.*)(</googlemap>)", re.DOTALL)
+    match = regexp.search(wikitext)
+    if match is None: return None
+    content = match.group(2)
+    gm = xml.etree.ElementTree.XML((match.group(1)+match.group(3)).encode('UTF8'))
+    zoom = gm.get('zoom')
+    lon = gm.get('lon')
+    lat = gm.get('lat')
+    if not zoom is None: zoom = int(zoom)
+    if not lon is None: lon = float(lon)
+    if not lat is None: lat = float(lat)
+    center = (lon, lat)
+
+    coords = []
+    paths = []
+    lines = content.split("\n")
+    i = 0
+    while i < len(lines):
+        line = lines[i].strip()
+        i += 1
+
+        # Skip whitespace
+        if len(line) == 0: continue
+
+        # Handle a path
+        if is_path(line):
+            match = re.match(u'([0-9]#[0-9a-fA-F]{8})', line)
+            style =  match.group(1)
+            local_coords = []
+            while i < len(lines):
+                line = lines[i].strip()
+                i += 1
+                if is_path(line):
+                    i -= 1
+                    break
+                if is_coord(line):
+                    lon, lat, symbol, title = parse_coord(line)
+                    local_coords.append((lon, lat, symbol, title))
+            paths.append((style, local_coords))
+            continue
+
+        # Handle a coordinate
+        if is_coord(line):
+            lon, lat, symbol, title = parse_coord(line)
+            while i < len(lines):
+                line = lines[i].strip()
+                i += 1
+                if is_path(line) or is_coord(line):
+                    i -= 1
+                    break
+                if len(line) > 0 and title is None: title = line
+            coords.append((lon, lat, symbol, title))
+            continue
+
+        raise RuntimeError(u'Unknown line syntax: ' + line)
+    return (center, zoom, coords, paths)
+