Memo

Opendata: Who said it first, in Italian Parliament ?

Segui le novità su Telegram
21.12.2020

A great opportunity to study opendata and Italian Parliament

Who said it first, in Italian Parliament ?

Q&A in open data.

www.legaldesign.it/opendata

My name is Valentino Spataro. I follow John Sheridan on Twitter for what he made on open data in UK, some years ago.

I was surprised when I've read a retweet of Sollazzo. He announced an easy and effective way to find the first time a word was used in the House of Commons.

It was some months I was looking for an inspiration to go deeper in open data of the Italian Parliament, and the idea make me open a door of opportunities.

So I studied the front end realized by Sollazzo. It's a great work to use the data via TheyWorkForYou.

In Italy there are several solutions, but I was looking for a single endpoint of all legislatures.

Secondly, I was looking for Q&A that, in my opinion, describe more a issuee on the society.

dati.camera.it offers two ways: download or endpoint.

The use of the endpoint requires a deep knowledge about the classifications of the documents. I hadn't yet enough experience to try a consultation in SPARQL of Q&A.

So I downloaded them. The ascii files follows this format:

  • url of the single Q&A;
  • key
  • value

A single Q&A is described in different single lines, acrosso 6 million of lines. Every Q&A is tagged with its unique url.

I've lost a week to try to manage them as a final product, in the best way, supporting the european ontologies used.

The solution came when I decided to make something work, immediatly, without ordering in advance all datas in a single record, a single record for each Q&A. Sql can do it for me, even if I lose flexibility for advanced queries.

I was impressed by the use of Eurovoc classifications; it made me fly too high for actual goals.

I had to remember that this is a project to learn how datas are classified, and to find the first one using a word, in Q&A in Italian Parliament, not everything else.

So I cleaned and imported the open data in my maria Db server, one line by one, and wrote the software to create the fastest sql query.

The database was indexed in full text, one index for the two field: a values field in VARCHAR and a long descrition field in type TEXT. The index, obviously, FULLTEXT.

I had to work only from XIV legislature and the next ones: the previous is temporarly missing (the zip is empty) and the previous legislatures are in a different format. So the best idea is to learn the fields needed to use SPARQL.

For the UI I followed the method of Sollazzo (a green photo of the Parliament), for the framework I use Materializecss.

Being in contact con Sollazzo, he suggested me to make a little presentation. I made a video in Italian, sorry, where you can see the raw datas and how they area imported in maria Db.

That difficult is to have an easy access of open datas. Sparql is exceptional, and Italian Parliament offer many example and documentions, but I didn't find anything on Q&A, so I have to experiment.

But what I've learnt is the exceptional use of european classifications, Eurovoc, that are multilingual and in a sort of hierarchy very intersting.

But the more important lesson is that we can add value to open data with a vision, with our culture.

Everyone try to use all datas to give more informations.

But focusing on a single useful information can really add much more value to a dataset than offering list of informations, already available on the web.

Thank Sollazzo,

Valentino Spataro

www.legaldesign.it/opendata

Chi l'ha detto per primo in Parlamento ?

Da uno scambio di Tweet con Giuseppe Sollazzo e John Sheridan abbiamo utilizzato gli open data del Parlamento Italiano.

Chi l'ha detto per primo ?

Questo e' quello che ha realizzato Giuseppe Sollazzo, con gli opendata della House of Commons: una consultazione molto semplice e rapida degli atti parlamentari alla ricerca della prima volta.

Appena ho visto l'idea, il cui sorgente e' su GitHub, mi sono detto che era l'idea che mi serviva per iniziare a giocare con altri dati parlamentari, oltre a quelli che già utilizzo.

Ho risposto al tweet e ci siamo tenuti i contatto.

UK vs Italy

La pagina di Giuseppe Sollazzo sfrutta una facile consultazione offerta da un sito inglese, che mette a disposizione una ricerca che puo' essere inserita in pagine esterne.

In Italia non c'e' un servizio simile, ma gli SPARQL del Parlamento consentono ogni interrogazione in tempo reale: completissimi, ma richiedono una approfondita conoscenza dei database parlamentari.

Per iniziare si possono scaricare i dataset gia' pronti, per poi importarli in un database.

Interrogazioni parlamentari

Da subito ho pensato che le interrogazioni parlamentari dovrebbero contenere richieste piu' interessanti e meno ridondanti di quelle contenuti nei dibattiti di approvazione di una legge.

Partendo dalle interrogazioni ho trovato i dati registrati in due formati a seconda del periodo. Ho preso quelli dalla XIV legislatura in avanti.

Scaricatili, ho iniziato a guardarli. Sono divisi in:

  1. id interrogazione
  2. chiave
  3. valore

A questo punto ho provato a inserire in una unica scheda di una interrogazione tutti i valori, campo dopo campo.

Troppo lungo. Fattibile, ma richiede troppe prove troppo lunghe.

Sei milioni di linee da indicizzare

Sei milioni: tante sono le linee contenuti negli opendata che ho scelto.

A questo punto ho deciso di replicare la struttura direttamente nel database, dividendo i valori tra quelli piu' piccoli di 500 caratteri in campi VARCHAR e quelli piu' lunghi in campi TEXT.

La scelta e' pensata ai fini dell'indicizzazione.

A questo punto i dati vengono caricati e generato, tra i vari, un indice FULLTEXT sui due campi: per farla breve, ho dato a MariaDB lo strumento per fare ricerche istantanee.

La query viene generata dal programma sulla base delle parole cercate, per essere rapidissima: sono cosi' passato da un iniziale 15 secondi a meno di mezzo secondo, forse ancora meno.

Sarebbe stato bello normalizzare i dati in modo piu' efficace, ma richiede troppo lavoro.

Qui la finalità e' imparare a conoscere gli opendata

Ontologie

Interessantissimo e' stato lavorare, nelle ipotesi iniziali, con le ontologie europee. Ogni atto parlamentare e' categorizzato con una struttura "gerarchica" di ontologie, che apre a ricerche incredibili.

In test di laboratorio ho effettuato alcune di queste ricerche, e ampliano moltissimo le prospettive.

Anche in questo caso il risultato di scoprire, studiarle, capirle, reinterpretarle e' stato raggiunto, ma non puo' diventare un prodotto finale senza un considerevole impegno. Per ora resta accantonato.

L'unica vera conseguenza che mi dispiace e' non poter pubblicare il sorgente che, internamente, ha ancora traccia di queste prove, pur non avendo senso rispetto al risultato che oggi si consulta online.

Quindi dovro' riscrivere i sorgenti ma si tratta di una query sql un poco piu' complessa di altri.

L'aspetto innovativo e' la struttura del database che e' visibile nel video pubblicato sul sito.

Risultati

  1. ho lavorato con gli open data europei e italiani
  2. li ho potuti studiare internamente, trovando le relazioni interne ed esterne
  3. ho realizzato un motore con database interno di sei milioni di record che si consultano in meno di un secondo senza aiuti esterni
  4. ho linkato i dati per la consultazione alla fonte.
  5. ho conosciuto Giuseppe Sollazzo le cui competenze sono straordinarie.

Una valuzione interessante: in Italia abbiamo uno strumento piu' potente ma piu' difficile da governare. La documentazione e' ottima, gli esempi numerosi, ma non sufficienti nel mio caso. La risorsa alla quale Sollazzo ha potuto accedere permette di risparmiare vari giorni di studio sul formato dei dati.

Ma una valutazione mi ha colpito: il lavoro silenzioso di tanti tecnici in Parlamento e' straordinario. Abbiamo una quantità di informazioni catalogate in modo innovativo a partire almeno dagli anni '80, ma in molti casi toccano anche date precedenti.

Insomma: il nostro Parlamento poggia su solidissime basi documentali. E sfogliarle da remoto e' un qualcosa al quale non ci dovremmo mai abituare.

Sei milioni di dati in meno di mezzo secondo.

Fantastico.

www.legaldesign.it/opendata


Segui le novità su Telegram oppure segui il Podcast

Approfondimenti:

Condividi su Facebook







menu