Proposta di tesi per repository strutture basi dati della P.A. nazionale con fondamenti di ontologie.

In passato mi sono occupato di repository delle strutture dei database (metadati tecnici e descrittivi di tavole e campi dei db), e di sperimentazioni di inferenze con uso di ontologie informatiche.
La mia idea è quella di estendere queste esperienze a livello nazionale, e proporre per questo la seguente tesi.
In tal senso il catalogo basi dati realizzato da Ca' Foscari per AgID è fondamentale, è un prezioso punto di partenza.
Qui descrivo l'idea bottom-up:

http://nelfuturo.com/basi-dati-della-PA-idea-e-primi-passi , ovvero l'ottenimento di un repository del quale l'articolo si rifà anche ad un prototipo di mia realizzazione.

Tale idea evolve poi in un principio di mapping ontologico top-down, con metodi di inferenza per somiglianza, ottenuta con gerarchie di entità usate come tassonomie, e relazioni tra le entità stesse:

http://nelfuturo.com/estrazione-e-classificazione-della-conoscenza-dai-metadati

Il tutto disegnando ontologie in formato owl.
I metodi di inferenza descritti, li ho sperimentati anni orsono con il professor Carlo Batini, grazie a una tesi di Manuel Garasi:

https://www.dropbox.com/s/jjmi7o67tuk3dul/11bc.9321.file.zip?dl=0

Ora vorrei estendere appunto l'idea applicandola a livello nazionale, partendo dal contattare le pubbliche amministrazioni (con mailing list o altre forme di coinvolgimento da discutere) (http://basidati.agid.gov.it/catalogo/amm.csv.bz2) ed ottenendo da esse le strutture per iniziare a popolare dapprima il repository dal basso.

La rappresentazione degli schemi ottenuti potrebbe avvenire nelle seguenti forme:

- modello entità relazioni

- con linguaggi come Galileo (http://www.dsi.unive.it/~orsini/wordpress/?page_id=75 )

- in owl

- in UML

- in altra forma da discutere.

Ciascuna forma non esclude l'altra, sono modi diversi di rappresentazione, utili a diversi scopi (modellazione dati, modellazione processi, rappresentazione ontologiche grafiche, etc.)

Di seguito si elencano gli scopi di questa attività:

- scopo di questa attività sarebbe, una volta reversati gli schemi di ogni db, fare un mapping dei medesimi usando gerarchie di entità e relazioni che descrivono i concetti della pubblica amministrazione, come "esche da pesca". Le entità usate come esca, fanno ricerca like nei nomi e descrizioni di tavole e campi, taggandoli.
Nella fattispecie, a suo tempo avevo usato gli schemi forniti da Batini, ma si potrebbero usare altri schemi concettuali a disposizione.

- scopo è comprendere dove sono presenti le entità (analisi di impatto).

Sapere che ad esempio l'entità cittadino è istanziata nelle tavole tab1 e tab2.
Taggare ovvero marcare tavole e campi che hanno ad esempio, nei nomi o nelle descrizioni, la parola cittadino, anzi "cittadin" (criteri di somiglianza, che tengano conto di singolare e plurale, e non solo).

- scopo è perfezionare il lavoro fatto a suo tempo come descritto sopra nella tesi Garasi. Intendo, ad esempio, sofisticare gli algoritmi di ricerca (andare oltre il like, magari usando tecniche di linguistica computazionale, o di text mining), usare ontologie più recenti prodotte da agid stessa, o in ambiti internazionali come W3C.

- scopo è ad esempio: dato un database di 100 tavole, l'algoritmo tira fuori una decina di entità che, sottoposte alla verifica di un referente di dominio di quella base dati, aiutano ad estrapolare da un db i concetti rilevanti, senza partire da un prato verde, ma analizzando le inferenze proposte dal tool, e perfezionandole.

- altro scopo potrebbe essere, e sarebbe già rilevante secondo me, classificare le strutture db reversate, usando le gerarchie di entità e le relazioni, fornite da Batini o tramite altre ontologie presenti e condivise in rete, come tassonomie tra loro correlate. Le entità come elementi di tassonomie che "taggano" gli oggetti fisici dei db (tavole e campi). Non mi lancerei su soluzioni middleware. E' certamente vero che, come nell'esempio dell'anagrafe unica, costerebbe meno costruire ex novo. Ma le basi dati che avremmo a disposizione riguarderebbero tutto lo scibile di dati delle P.A., non solo l'anagrafe. E un algoritmo del genere, poiché si basa sul reverse dei concetti, potrebbe essere utile per raccogliere tutti i concetti esistenti per costruire soluzioni ex-novo esaurienti.

Ovviamente una cosa sono i dati, altra cosa sono i processi che insistono sui dati, che possono differire a seconda del contesto specifico). Noi possiamo al massimo capire che, con un esempio, ""CITTADINO<paga>TRIBUTO", ma non siamo in grado di spiegare come paga, cioè non è con una attività di reverse di strutture dati che si riesce a fare reverse di processi. Il lavoro di questa tesi è totalmente incentrato sulle strutture dati.

La realizzazione tecnica dei tools dovrà inserirsi e ampliare le possibilità web già offerte dalla piattaforma realizzata da Ca' Foscari per il catalogo basi dati e applicativi.
La prima cosa da fare è realizzare appunto il catalogo delle strutture delle basi dati. Ovvero per ogni database acquisito da AgID e reso open (http://basidati.agid.gov.it/catalogo/download.html), bisogna pazientemente ri-bussare alle porte delle P.A. per ottenere tali strutture, e per bussare abbiamo una tabella open con le email da contattare.

Non è banale chiedere una cosa del genere alle amministrazioni. A seconda dei casi, ci si può attivare in vari modi, me ne vengono in mente alcuni:

1) se è una amministrazione dotata di risorse I.T., siamo forse nel caso più facile, una risorsa I.T. può attivarsi con i database administrators interni, o con i fornitori dei database, per ottenere tali strutture.

2) se una amministrazione non ha risorse I.T., e penso siano molte, è necessario recarsi presso di loro e svolgere le attività per il recupero strutture.

3) per entrambi i casi vi sono tools, sia di mercato che open, in grado di "reversare" le strutture per ottenere cose tipo il file sql che allego. Io ad esempio ho sempre usato erwin.
Erwin e/o altri tools si connettono via odbc ai databases, con utenza e password. Ad esempio, se mi connetto per reversare un db oracle, uso utenza e password che userei per connettermi con pl-sql.

Ultimo aggiornamento:14/07/2015 07:29:10