PDF to CSV
il Dipartimento per lo Sport della Presidenza del Consiglio dei Ministri ha appena pubblicato l'elenco dei Contributi a fondo perduto per le ASD/SSD
Si tratta di un PDF di 208 pagine per 10.126 righe, non compliant per essere machine readable
Lo prendo come spunto per la conversione in un CSV con #Python
Nel CSV, infine, ho inserito pigramente e a mano lo zero mancante al primo codice fiscale
import camelot
import pandas as pd
tables = camelot.read_pdf(pdf, pages='all')
df = pd.concat([tab.df for tab in tables], ignore_index=True)
df.columns = df.iloc[0] # Set the First Row as Column Headers
df.drop(df.head(1).index,inplace=True) # drop first row
df.drop(df.tail(1).index,inplace=True) # drop last row
df['Importo contributo'] = df['Importo contributo'].str.replace('.', '').str.replace(',', '.').str.replace('€', '')
df['Importo contributo'] = df['Importo contributo'].astype(float)
df.to_csv('D:/elenco-beneficiari-impianti-sportivi.csv', index = False,sep='|')