Link format of PDFs does not change anymore after reload.
authorPhilipp Spitzer <philipp@spitzer.priv.at>
Wed, 19 Apr 2017 17:50:07 +0000 (19:50 +0200)
committerPhilipp Spitzer <philipp@spitzer.priv.at>
Wed, 19 Apr 2017 17:50:07 +0000 (19:50 +0200)
bob_download.py

index f979edbbc684cf898851d5f7f362de600e4ab041..c57876deb87b0ff8dc720461a7727797a81b5ccc 100755 (executable)
@@ -54,17 +54,11 @@ def main(username, password, destdir, csv_format):
     html = BeautifulSoup(response.text, 'html.parser')
     assert html.find('a', title="ausloggen") is not None
 
-    # reload overview page rechnung.bob.at - that makes the URLs in the page much prettier
-    # previously:
-    # https://rechnung.bob.at/bill/pdf/;BOBOBPSESSIONID=773A62BEC4AE1FBB917B3D82F69CE3A4.obpBobCustomer4Rechnung_1606_518139490_1.pdf?bsn=108
-    # same after reload:
-    # '/bill/pdf/Rechnung_1606_518139490_1.pdf?bsn=107'
-    response = session.get(response.url)
-    assert response.ok
-    html = BeautifulSoup(response.text, 'html.parser')
-
     # Download PDFs
-    # Links look like '/bill/pdf/Rechnung_1606_518139490_1.pdf?bsn=107'
+    # Links look like:
+    # https://rechnung.bob.at/bill/download/pdf/sync/Rechnung_1703_523260091_1.pdf?ban=523260091&ben=1&bsn=79&original=true
+    # https://rechnung.bob.at/bill/download/pdf/sync/Rechnung_1702_523260091_1.pdf?ban=523260091&ben=1&bsn=78&original=true
+    # https://rechnung.bob.at/bill/download/pdf/sync/Rechnung_1701_523260091_1.pdf?ban=523260091&ben=1&bsn=77&original=true
     regexp = re.compile(r'\/(Rechnung_.*)\?')
     links = html.findAll('a', href=regexp)
     for link in links: