Il criminal profiling tramite reti neurali artificiali
Il criminal profiling è una tecnica investigativa utilizzata per cercare di identificare l’autore di un crimine partendo dall’individuazione delle caratteristiche della sua personalità.
Si tratta di una tecnica spesso mitizzata, complici le varie serie televisive che si occupano dei fatti più efferati, talvolta meno efficace di quel che sembra, trattandosi di un’attività in realtà più complessa e sicuramente più incerta negli esiti di come viene rappresentata (Alison L. et al., 2002).
Innanzitutto si deve osservare come sull’utilizzazione del termine criminal profiling non vi sia univocità. Il nome più appropriato per tali attività potrebbe essere “criminal personality profiling”, termine usato ufficialmente dal Federal Bureau of Investigation (FBI) degli Stati Uniti; spesso si usano invece i termini “psychological criminal profiling” o semplicemente “psychological profiling”, in modo quindi riduttivo rispetto a una attività di ricerca che non si basa solamente sugli aspetti psicologici.
Al di là del nome, i criminologi fanno rientrare queste attività nella criminologia applicata o nella criminologia clinica, oppure le associano alle tecniche di ricostruzione della scena del crimine; proprio per questo le definizioni di questo gruppo di attività tutte afferenti al criminal profiling sono molteplici e diversificate, in funzione anche dell’utilizzazione più o meno ampia dei dati e della provenienza degli stessi.
Una definizione che si riferisce a un uso strategico di informazioni raccolte in modo massiccio è la seguente: «In its plainest sense, criminal justice profiling occurs when criminal justice officials strategically consider characteristics such as race, gender, religion, sexual orientation, [age and other factors] to make discretionary decisions in the course of their duties[1]».Traduzione: «Nel senso più banale si parla di profiling nell’ambito della giustizia penale quando vengono considerati in modo strategico caratteristiche quali etnia, genere, religione, orientamento sessuale, [età e altri fattori] al fine di adottare decisioni discrezionali».
Altra definizione, che si riferisce invece in modo specifico alla scena del crimine è: «It is an attempt to determine the attributes of an unknown subject (UNSUB) or perpetrator based on evaluating minute details of the crime scene, the victim, and any other obtainable evidence[2]». Taduzione: «Si tratta di un tentativo di determinare gli attributi di un soggetto sconosciuto (UNSUB) o dell’autore di un reato basato sulla valutazione di piccoli dettagli sia della scena del crimine quanto della vittima nonché di qualsiasi altra traccia».
In relazione a quanto si andrà a trattare con il termine “criminal profiling” si intende un processo di acquisizione e di elaborazione di informazioni utile all’individuazione del soggetto che ha compiuto (o sta per compiere) un determinato crimine.
Dal momento che il processo di acquisizione delle informazioni è associato a una vera e propria attività investigativa specifica, normalmente successiva all’accadimento a e volte immediatamente precedente, oppure ad una attività di prevenzione generalizzata, quindi non connessa direttamente ad un evento specifico, alcuni autori[3] distinguono il criminal profiling in reactive o proactive.
Usare il profiling per risolvere crimini già avvenuti significa utilizzare la modalità reactive, al contrario il profiling proactive si riferisce alla ricerca di elementi utili a impedire il crimine prima che questo avvenga.
Questa seconda tipologia di profiling ha un particolare interesse con riferimento al terrorismo e viene così definita: «To make judgments about another, relative to possible criminal activity, based on a number of overt and subtle factors which may or may not include things such as a person’s race, manner of dress and grooming, behavioral characteristics, when and where the observation is made, the circumstances under which the observation is made, and relative to information the officer may already possess[4]». Traduzione: «In relazione a una probabile attività criminale, esprimere giudizi su un’altra persona basati su un certo numero di fattori sia evidenti che sottesi, e che potrebbero includere elementi come l’etnia, il modo di vestirsi e l’aspetto più o meno curato, le caratteristiche comportamentali, quando e dove è stata fatta l’osservazione, le circostanze nelle quali è stata fatta, nonché le informazioni delle quali si è già in possesso».
Riguardo l’altra differenza fra criminal profiling induttivo e criminal profiling deduttivo, va specificato quanto segue.
Nel criminal profling deduttivo lo scopo dell’analisi è di dedurre il comportamento di un particolare criminale dalle evidenze relative al singolo crimine[5]; questo modus operandi confida nella tipizzazione dei comportamenti e dei meccanismi di ragionamento umani. Il problema di questo approccio è che molti fattori esterni possono influenzare il comportamento umano e quindi possono produrre, anche nella stessa situazione, effetti diversificati, sia pure generati da personalità fondamentalmente simili.
Nel criminal profiling induttivo si parte invece da un insieme di dati relativi ad eventi simili, correlati ai dati delle persone che li hanno causati, così da arrivare a dedurre il “profilo” del criminale “standard” per quel particolare evento; banalizzando, se si sa, dai dati del passato, che l’80% dei serial killer che uccidono le studentesse nei parcheggi delle scuole sono uomini, di etnia bianca, con età compresa fra i 30 e i 40 anni, che vivono soli con la madre e guidano un certo tipo di automobile, sapendo che il criminale che stiamo cercando ha attaccato quattro volte le studentesse nel parcheggio di una scuola, si può presupporre di doverlo cercare fra gli uomini di età compresa fra i 30 e i 40 anni, che vivono soli con la madre, e guidano quel particolare tipo di automobile. Va osservato come questa tipologia di criminal profiling, quando non supportata da riscontri effettivi, ha portato a errori giudiziari madornali.
Gli assunti di partenza per il criminal profiling deduttivo sono:
- le evidenze sulla scena del crimine, l’analisi della scena tramite le documentazioni mediche, chimiche, fotografiche e di altro tipo, in generale tutto quanto può essere utile a far comprendere le interazioni fra vittima (o vittime), criminale (o criminali) e luogo del delitto, l’eventuale evoluzione nel tempo nei casi seriali, le eventuali più o meno chiare “firme” lasciate dal criminale sulla scena del delitto[6];
- lo studio e l’analisi delle caratteristiche peculiari della vittima in quanto utili a far comprendere perché il criminale abbia scelto quella determinata vittima all’interno della generalità della popolazione e dunque contribuire a tracciare il profilo del criminale.
Gli assunti iniziali per il criminal profiling induttivo sono:
- il concetto che tanto il comportamento quanto le motivazioni dei criminali non siano suscettibili di grandi cambiamenti in funzione del trascorrere del tempo, ma siano caratteristiche abbastanza statiche e dunque prevedibili;
- il concetto che i criminali che hanno commesso determinati crimini in un passato recente sono culturalmente simili agli odierni criminali che commettono gli stessi crimini, essendo influenzati da condizioni ambientali simili ed avendo le stesse motivazioni generali e qualche volta anche le stesse motivazioni specifiche;
- infine il concetto che i criminali già conosciuti hanno le stesse caratteristiche comportamentali dei criminali ancora sconosciuti che commettono lo stesso tipo di crimini, da cui la possibilità di operare generalizzazioni utili ad una previsione che si basi da una parte su tali caratteristiche, dall’altra sul comportamento effettivo adottato nel caso che si sta studiando.
Si può ben intuire che alcuni crimini come gli atti terroristici mal si prestano ad essere affrontati con le usuali tecniche del criminal profiling, deduttive o induttive che siano, per più motivi; fra questi:
- innanzitutto la non rispondenza dei terroristi agli ordinari profili psicologici criminali;
- la necessità di un inquadramento sociologico particolare del fenomeno terrorismo;
- la grande variabilità nel tempo e nello spazio degli atti terroristici stessi;
- infine il fatto che negli attentati terroristici molti elementi della scena del delitto vanno irrimediabilmente persi.
Gli atti terroristici possono essere considerati alla stregua di un serial killing perpetrato da una pluralità di persone anziché da un solo criminale; questa tipologia difficilmente si ritrova al di fuori degli atti terroristici, salvo che nei delitti seriali messi in opera da sette a sfondo religioso o da organizzazioni simili.
D’altra parte per definizione stessa gli atti di terrorismo sono ben diversi dai normali atti criminali: il loro scopo ultimo non è uccidere o ferire le persone, ma minare il senso di sicurezza collettivo così da poter indebolire la comunità per riuscire a innescare un cambiamento sociale e politico tramite la violenza anziché la normale dialettica democratica. Si tratta inoltre di fenomeni la cui previsione passa per la comprensione delle ideologie sottostanti e non delle usuali dinamiche criminali e che talvolta evolvono in modo pressoché imprevedibile.
Si pensi, solo per fare un esempio, a quelli che vennero definiti, dopo i fatti di Londra del 2005, nei quali persero la vita ben cinquantasei persone, i “terroristi della porta accanto”: uomini che conducevano una vita apparentemente normale fino al giorno in cui uscirono di casa per seminare morte e distruzione. Grammatikas scrive: «D’altra parte, secondo le informazioni diffuse dalla polizia e dalla stampa britannica, i quattro terroristi suicidi identificati erano cittadini britannici, cresciuti in Gran Bretagna, perfettamente inseriti nella società locale e tre di loro erano pure nati in Gran Bretagna. Questa differenza cruciale [rispetto al passato] sembra mettere l’Europa di fronte a un nuovo tipo di minaccia terroristica, non prevista prima: il terrorista “della porta accanto”, che peraltro non si adatta al tipico modello dell’arabo fanatico religioso[7]». (Grammatikas V., 2008). Impossibile tracciarne un profilo con le tecniche del criminal profiling induttivo, così da scongiurare quanto poi accadde.
In questi casi l’uso delle sole tecniche di criminal profiling classiche non serve a molto, e deve essere assistito da un approccio sociologico e psicologico specifico; infatti il mutamento di strategia operato dagli agenti terroristici, che nella fattispecie erano persone normalissime, ormai perfettamente integrate nella società nella quale vivevano, mise le autorità britanniche in stallo riguardo le indagini.
Le difficoltà sopra rappresentate inducono a ricercare metodologie innovative per il criminal profiling.
Il metodo che qui si propone è l’utilizzazione delle reti neurali artificiali, un metodo di elaborazione dell’informazione molto efficiente per operare previsioni ove gli ordinari metodi statistici o algoritmici falliscono, un metodo basato sul modello del cervello umano.
Le reti neurali artificiali nel più ampio panorama dell’intelligenza artificiale (AI – artificial intelligence)
Per rete neurale artificiale (ANN – artificial neural network) si intende una replica artificiale (hardware o simulata via software) delle reti neurali naturali, quelle biologiche[8], insieme delle cellule (i cosiddetti neuroni) che costituiscono il cervello umano o animale.
Gli studi hanno da tempo dimostrato che un determinato tipo di reti neurali artificiali, quelle con apprendimento supervisionato, a differenza dei normali computer che devono essere programmati con procedure algoritmiche, sono in grado di individuare la soluzione di problemi che vengono loro posti, apprendendo direttamente dall’esperienza che accumulano presentando loro ripetutamente una serie di esempi del problema da trattare, corredati delle relative soluzioni; in pratica questo tipo di rete neurale simula il funzionamento del cervello umano e animale, che riesce a trovare la soluzione ai vari problemi semplicemente basandosi sull’esperienza del passato.
Un altro tipo di reti neurali artificiali, quelle con apprendimento non supervisionato, dette anche auto-organizzanti e che hanno una forte analogia con alcune strutture neurobiologiche e con la capacità di queste ultime di auto-organizzarsi, apprendono autonomamente senza la necessità di mostrare loro esempi.
Queste reti possono indicarci se esiste una struttura (organizzata) soggiacente ai dati che vengono loro presentati; in sintesi questo tipo di rete compie la stessa funzione messa in atto dalla corteccia cerebrale negli animali superiori e nell’uomo.
Tanto per le reti ad apprendimento supervisionato quanto per le reti ad apprendimento non supervisionato, la comune caratteristica di riuscire a individuare determinati pattern di valori derivanti dagli indicatori di un fenomeno, sancisce la possibilità di utilizzare le reti neurali artificiali quali metodo previsionale, come alcuni autori mostrano in un quadro comparativo delle varie metodologie[9].
Dal punto di vista generale le reti neurali artificiali si inseriscono nella più ampia tematica dell’intelligenza artificiale e ne costituiscono sicuramente il paradigma principale, sviluppatosi storicamente dal desiderio di riprodurre sistemi di elaborazione “intelligenti”, simili, per prestazioni e comportamento, all’uomo, le cui azioni sono governate dal cervello.
Le reti neurali artificiali di fatto replicano l’organizzazione del cervello umano, essendo costituite da molti processori semplici (neuroni artificiali) interconnessi fra sé, come nella figura sottostante, che rappresenta una piccola rete neurale artificiale composta da 9 neuroni (4 di input, 2 nascosti, 3 di output).
Ogni neurone artificiale, in modo sostanzialmente simile ad un neurone biologico, calcola il segnale in uscita come funzione[10] della differenza fra il prodotto dei segnali di entrata per i rispettivi pesi sinaptici (la forza delle relative connessioni), e un valore di soglia prefissato.
Le reti neurali artificiali ricordano nelle loro prerogative il cervello (umano o animale) essenzialmente per due aspetti:
- la conoscenza è acquisita attraverso un progressivo processo di apprendimento, dato dalla modificazione ripetuta della forza delle connessioni (pesi sinaptici), e non è immessa dall’esterno come invece avviene per i sistemi di elaborazione dell’informazione tradizionali;
- la conoscenza non è immagazzinata nei singoli elementi (neuroni), ma nella forza delle connessioni fra neuroni ed è il risultato dell’apprendimento.
Molti sono i tipi di rete neurale artificiale e, considerate le varianti che si possono avere, si ha una panoramica di centinaia di tipi diversi[11] in funzione del tipo di apprendimento (supervisionato, non supervisionato), dell’architettura, della regola di modificazione dei pesi sinaptici, della funzione del segnale di uscita del singolo neurone.
Ulteriori varianti sono date da altri aspetti quali l’inizializzazione dei pesi sinaptici, la possibilità di variazione della forza delle connessioni nel tempo sia pure in presenza di input costanti ed altri parametri.
L’uso di uno o l’altro tipo di rete dipende dal particolare problema sul quale vogliamo applicare la rete e, purtroppo, anche dalla maggiore o minore disponibilità di software[12] di rete neurale.
Attualmente le reti neurali artificiali sono utilizzate in moltissime applicazioni pratiche, si pensi all’ambito finanziario dove la risposta immediata all’evoluzione del mercato non potrebbe più essere gestita da un essere umano, ma anche il riconoscimento vocale utilizzato negli smartphone o il riconoscimento dei caratteri utilizzato dagli scanner per non parlare del riconoscimento visivo a bordo dei sistemi di videosorveglianza.
Limitate sono ancora le applicazioni sulla previsione dei fenomeni sociali così come quelle sull’argomento qui trattato: il criminal profiling.
Una rete neurale artificiale ha vantaggi indiscutibili rispetto agli ordinari metodi di previsione:
- è possibile operare previsioni efficienti anche nel caso di mancanza di una variabile di input. La rete tollera infatti la mancanza di alcuni dati essenziali ed è in grado di operare comunque previsioni valide;
- è possibile inserire fra le variabili di input anche variabili che non hanno influenza sul fenomeno in esame. La rete provvederà da sola a non prendere in esame, o a prenderle in esame nella misura dovuta, le variabili di input che non hanno influenza o che hanno influenza limitata sul fenomeno. Grazie a questo è possibile, in caso di dubbio sull’importanza o meno di una determinata variabile per il fenomeno che viene considerato, fornire alla rete anche i dati corrispondenti alla variabile dubbia, senza per questo avere previsioni scorrette;
- non sono necessarie conoscenze matematiche particolarmente approfondite per chi voglia utilizzare una rete neurale artificiale. Quello che è necessario, oltre alla padronanza della tematica delle reti neurali artificiali, un po’ di attenzione nella costruzione della rete (individuazione del tipo, dell’architettura, del numero dei nodi) e molta pazienza nell’ottimizzare i parametri di lavoro della rete rispetto allo specifico fenomeno.
L’uso delle reti neurali artificiali per il criminal profiling: proposta di metodo
A questo punto è possibile, utilizzando il criminal profiling induttivo, ipotizzare l’individuazione del “profilo” del criminale tramite una rete neurale che, dopo aver appreso l’associazione fra i dati rilevati sulle scene dei crimini del passato e i profili di chi li ha commessi, in risposta all’immissione dei dati relativi al crimine sul quale si sta indagando restituisca come risultato il “profilo” dell’autore del fatto.
Per un’applicazione pratica il tipo di rete neurale artificiale più adeguato è una rete neurale artificiale del tipo multi-layer perceptron (MLP), rete ad apprendimento supervisionato, dal momento che:
- è il tipo di rete più a lungo studiato e più conosciuto, anche per quanto concerne la calibrazione dei vari elementi della rete[13], dunque il tipo di rete che può fornire risultati maggiormente attendibili;
- è una tipologia di rete meno critica di altre reti neurali artificiali (come per esempio la rete RBF[14] che pure ha la stessa architettura) e consente valide generalizzazioni dei fenomeni a partire da input non perfettamente determinati. È in grado di fornire output corretti anche quando vengono presentati in input, insieme alle variabili veramente significative per il particolare fenomeno, altre variabili non significative, inoltre accetta input corrotti da “rumore”[15] senza modificare sensibilmente il proprio comportamento riguardo all’output quando altri metodi, come quelli statistici, condurrebbero ad errori fatali per la previsione;
- è il tipo di rete più facilmente implementato in software di simulazione ANN già disponibili sul mercato, anche con licenza freeware o shareware, oppure messo a disposizione gratuitamente da istituti universitari;
- le reti MLP sono ottimi approssimatori universali di funzioni non lineari, con una serie di indiscutibili vantaggi rispetto ad altri metodi, in quanto consentono la presentazione contemporanea di input diversi per campo di variazione e quindi sia quantità rappresentate da numeri reali, come potrebbero essere dati macro-economici, sia valori SI/NO rappresentati con 1 e 0 come le risposte a batterie di domande. Inoltre non è necessario preoccuparsi dello specifico modello di funzionamento che si utilizzerà per l’approssimazione, in questo senso le MLP sono una sorta di “black box”.
È doveroso precisare alcuni aspetti che devono essere tenuti presenti per utilizzare una rete neurale artificiale MLP[16]per il criminal profiling induttivo:
- ovviamente si deve avere la disponibilità di gruppi di dati (costituiti da variabili che rappresentano gli elementi della scena del crimine e variabili che rappresentano le caratteristiche del profilo) abbastanza corposi, così da poter procedere sia all’addestramento della rete, sia al test della stessa utilizzando gli ultimi dati della serie (input e relativi output);
- la tipologia di crimine non dovrebbe aver subito modificazioni sostanziali e le variabili oggetto di rilevazione per descrivere il crimine ed il suo autore non dovrebbero aver subito modificazioni nel tempo;
- devono essere individuate, utilizzando gli studi già compiuti sullo stesso argomento, le variabili di input “chiave” (quelle derivanti dallo scenario riferito al crimine) e le variabili di output “chiave” (quelle utili a individuare il “profilo”). Per fortuna l’utilizzazione di una rete neurale consente di utilizzare più variabili rispetto a quelle effettivamente significative, senza per questo inficiare il funzionamento della rete che, semplicemente, “ignorerà” le variabili che non sono significative.
Andando a un esempio pratico i passaggi da compiere sono i seguenti, ammettendo, per esempio, di utilizzare un database costituito da record i cui campi siano simili a quelli compilati nel VICAP (Violent Criminal Apprehension Program), il questionario a risposta multipla che descrive il crimine in corso di analisi e le cui informazioni vengono poi inserite nel relativo database del Federal Bureau of Investigation (USA):
- individuazione delle variabili di input costituite dalla misurazione (in termini numerici, in termini di si/no, ecc.) degli elementi rilevati sulle scene dei crimini. Nel nostro esempio (le variabili effettivamente da utilizzare possono essere molte di più) si potrebbero utilizzare le seguenti variabili del VICAP relativamente agli omicidi a sfondo sessuale:
Variabile | Range |
Attacco pianificato (o spontaneo) | SI/NO |
Vittima sconosciuta | SI/NO |
Luogo del crimine sconosciuto | SI/NO |
Ha conversato con la vittima prima dell’attacco | SI/NO |
Vittima sottomessa con mezzi di costrizione prima di essere uccisa | SI/NO |
Atti sessuali prima della morte | SI/NO |
Atti sessuali dopo la morte | SI/NO |
Penetrazione violenta quando la vittima è ancora in vita | SI/NO |
Corpo rimosso dalla scena del crimine e portato altrove | SI/NO |
… | … |
Arma da fuoco | SI/NO |
Arma da taglio | SI/NO |
Arma personale (o recuperata sul posto) | SI/NO |
La specificazione delle variabili può essere più o meno ampia; oltre a prevedere una variabile arma da fuoco (si/no) si potrebbe prevedere il calibro dell’arma o altre caratteristiche più specifiche. Da tenere conto che più si aumenta la specificità e meno generalizzazioni saranno poi possibili. Queste variabili sono quelle che corrisponderanno ai neuroni di input della rete neurale artificiale.
- Individuazione delle variabili di output che descrivono il profilo del criminale. Nel nostro esempio, utilizzando (anche qui le variabili da utilizzare effettivamente potrebbero essere molte di più) alcune variabili del VICAP relativamente agli omicidi a sfondo sessuale, si potrebbe avere:
Variabile |
Range |
Intelligenza | 1-10 |
Socialmente adeguato | 1-10 |
Sessualmente adeguato | 1-10 |
Occupato in lavori di media-alta qualifica | SI/NO |
Tende a cambiare spesso lavoro | SI/NO |
Lavoratore manuale | SI/NO |
Disoccupato | SI/NO |
Situazione familiare normale | SI/NO |
Situazione familiare problematica | SI/NO |
Uso di alcool (1=uso normale – 10= abuso) | 1-10 |
Uso di sostanze stupefacenti (1=uso normale – 10= abuso) | 1-10 |
Vive con partner | SI/NO |
Sesso | M/F |
Geograficamente mobile | 1-5 |
Interesse nei mass media | 1-5 |
Aspetto curato | 1-10 |
Igiene personale | 1-10 |
Figlio unico o maggiore | SI/NO |
Dispone di altri appartamenti oltre la residenza | SI/NO |
… | … |
Vive in luogo isolato | SI/NO |
- Recupero dal database delle serie dei valori input/output fra loro correlati e riferiti alle variabili di cui sopra. Queste serie non sono altro che uno “spaccato” del database. In realtà già nella selezione delle variabili è bene tenere conto dei dati a disposizione.
- Prima strutturazione della rete MLP in termini di numero dei neuroni di input (che corrispondono alle variabili di input), di output (che corrispondono alle variabili di output), strati e numero di neuroni nascosti. In via molto generale, è da tenere presente che aumentando il numero di nodi nascosti la rete neurale artificiale aumenterà la propria precisione rispetto ai dati presentati, ma diminuirà la propria facoltà di generalizzazione per valori che non rispettano il trend. All’opposto diminuendo i nodi nascosti si aumenteranno le facoltà di generalizzazione anche per valori anomali (outlier), ma si diminuirà la precisione complessiva. Presupponendo che le variabili che descrivono il profilo fossero 35 e quelle relative alla scena del crimine 50, con un numero di neuroni nascosti, in un solo strato, di 100 lo schema della rete sarebbe il seguente.
- Normalizzazione dei valori delle variabili affinché possano essere trattati dalla rete neurale artificiale. Questa operazione si compie facendo una proporzione fra il range di ogni variabile (intendendo per range la differenza fra il massimo ed il minimo raggiungibili dalla variabile in considerazione e non il minimo ed il massimo attuali) ed i valori 0 e 1. Esistono metodi diversi per effettuare questa operazione, ognuno dei quali ha influenza sul funzionamento della rete neurale. Alla fine dell’operazione di normalizzazione i dati presentati alla rete saranno tutti compresi fra 0 e 1. Egualmente i valori previsti saranno compresi fra 0 e 1 e dunque alla fine andrà compiuto il procedimento inverso per ottenere i valori reali.
- Apprendimento iniziale della rete neurale utilizzando tutti i valori input/output, meno alcuni set di valori, che serviranno per la fase di test. Alla rete come strutturata in prima istanza verranno dunque presentati i valori (normalizzati) di input e di output, verificando se dopo la fase di apprendimento (che dovrebbe durare per almeno 10.000 epoche[17]) la rete abbia appreso correttamente. La verifica verrà compiuta per la prima volta semplicemente sui valori già presentati durante l’apprendimento; in pratica si verificherà che la rete sia effettivamente un buon approssimatore della funzione che descrive la serie di dati presentata nell’apprendimento. Se in fase di test (con gli stessi valori presentati) la rete funzionerà abbastanza correttamente (e dunque sarà un buon approssimatore della funzione descrittrice del fenomeno), si effettuerà una fase di test con i valori lasciati fuori dall’apprendimento e si verificherà che la rete compia una previsione abbastanza accurata rispetto a tali valori. Durante questa prima fase l’errore (come differenza fra i dati reali e quelli prodotti in fase di funzionamento dalla rete neurale) potrà essere anche notevole. Quello che comunque interessa è che tendenzialmente la rete riesca ad effettuare una previsione;
- Ottimizzazione dei parametri di apprendimento (in particolare: tasso di apprendimento e momento[18]), tenendo sempre sotto controllo la progressiva discesa dell’errore durante l’apprendimento ed utilizzando questa per ottimizzare i vari parametri (che sono: tasso di apprendimento, pesi sinaptici iniziali, modalità di presentazione dei dati alla rete – sequenziale o random, e così via).
- Variazione del numero dei neuroni nascosti, dapprima aumentandolo, e rifacendo una serie di prove modificando i parametri come prima, quindi diminuendolo, in modo da individuare il numero di neuroni nascosti ottimale per il nostro problema;
- Effettuazione di prove utilizzando minimi e massimi diversi; in particolare se alcuni dei dati futuri (al momento purtroppo non conosciuti) fossero fuori tendenza le previsioni della rete potrebbero essere non corrette se la normalizzazione non avesse tenuto conto dei minimi e massimi possibili di questi valori fuori tendenza;
- Nuovo addestramento aumentando le epoche necessarie per l’addestramento, provando i vari algoritmi di propagazione dell’errore, individuando il migliore algoritmo di propagazione dell’errore fra quelli a disposizione con il particolare software (all’inizio può convenire utilizzare il più semplice).
A questo punto la rete si troverà nella configurazione migliore per procedere alle previsioni richieste; il procedimento da seguire è sintetizzato nella figura riportata[19].
A termine apprendimento, immettendo i dati della scena del crimine, sarà quindi possibile ottenere il profilo del criminale che cerchiamo espresso tramite una serie di variabili; chiaramente il profilo sarà più o meno preciso in funzione dei neuroni di output (e quindi delle variabili) scelte.
Sono opportune alcune precisazioni:
- per poter strutturare una rete neurale artificiale e sottoporla all’apprendimento è necessaria l’utilizzazione di indicatori riferiti alle scene dei vari crimini che provengano dalla stessa fonte, così da assicurare la loro omogeneità riguardo alla scala di misurazione. È dunque indispensabile avere a monte un database strutturato di dati sui crimini così come un database è sempre necessario se si vuole lavorare seriamente con qualsiasi metodo (matematico, statistico, ecc.);
- il pregio della rete neurale artificiale è anche quello di poter effettuare simulazioni modificando i valori di input. Per fare un esempio: qualora ci si accorgesse successivamente ai rilievi di indagine che la scena del crimine era stata modificata e dunque che i valori rilevati non erano veritieri, si potrebbero comunque modificare successivamente questi valori per ottenere la previsione corretta;
- è possibile immettere nella rete qualsiasi tipo di informazione (esempio: numero di ferite, ferite da taglio si/no, ferite arma da fuoco si/no, violenza sessuale si/no, ecc.). Il pregio di utilizzare una rete neurale artificiale è che i dati possono essere di forma varia e quindi sia di tipo numerico che di tipo logico (si/no). In via teorica i dati possono essere di qualsiasi tipologia (per esempio anche spaziale) in quanto per una ANN non conta la modalità di rappresentazione della conoscenza ai fini dell’elaborazione della conoscenza stessa;
- la mancanza di alcune variabili o il valore errato di alcune di esse non pregiudicherebbe il risultato essendo le ANN piuttosto tolleranti riguardo al “rumore” nei dati di ingresso.
Va accennato al fatto che si potrebbe utilizzare una rete SOM (self-organizing map) per un sistema di criminal profilingdeduttivo.
Le reti SOM infatti riescono a classificare autonomamente pattern di dati e sarebbe quindi possibile far individuare ad una rete neurale artificiale i collegamenti esistenti e non visibili immediatamente all’investigatore fra grandi quantità di dati.
Un esempio di funzionamento di una rete SOM con riferimento all’argomento qui trattato è rappresentato nelle figure seguenti.
La rete SOM opportunamente congegnata potrebbe riuscire ad individuare autonomamente collegamenti fra elementi di indagine (da una parte le qualità personali, dall’altra le caratteristiche degli eventi), collegamenti ai quali gli investigatori non pensano neanche lontanamente; questo potrebbe essere particolarmente interessante nel caso del terrorismo, specialmente utilizzando grandi database che lavorano su dati a livello di intera popolazione.
In pratica la rete SOM potrebbe fornire la probabilità che un determinato profilo di persona (non individuabile con i metodi tradizionali) possa far parte di un gruppo terroristico o stia per attuare un atto terroristico, utilizzando un database di dati psicologici, culturali, della personalità, sociologici della società di provenienza, sociologici della società in cui la persona si è inserita, di grandi gruppi di persone.
Da aggiungere che la creazione di una rete neurale artificiale mista (chiamate da alcuni autori “nested artificial neural networks[20]” e da altri hybrid artificial neural networks), e dunque una rete MLP che utilizza in input, anziché i dati “grezzi” del database, i risultati ottenuti da più reti SOM che accettano i dati in entrata, potrebbe risultare un potente strumento, in particolare nel campo del terrorismo che risulta particolarmente difficoltoso all’approccio con le usuali tecniche di criminal profiling.
Certamente tutto questo porterebbe a problemi di natura giuridica (è lecito procedere ad una “mappatura” indiscriminata di molti soggetti, mappatura condotta magari su base religiosa, oppure su base etnica?), filosofica (è giusto che la società proceda ad un così stretto controllo sui propri cittadini?) e infine politica (le informazioni raccolte mettono in grado la pubblica autorità di operare discriminazioni, sia pure non volute) di difficile soluzione e sui quali, in qualche modo, si è espressa l’Unione europea con il cosiddetto AI-ACT[21].
Bibliografia
Alison L. et al. (2002). The personality paradox in offender profiling – A theoretical review of the processes involved in deriving background characteristics from crime scene actions. Psychology, Public Policy, and Law. Vol. 8, No. 1, 115–135, American Psychological Association
Bedessi S. (2019). Intelligenza artificiale e fenomeni sociali. Previsioni con le reti neurali, Apogeo Education, Milano.
Bumgarner, J., (2004). Profiling and Criminal Justice in America. A Reference Handbook. Bloomsbury Publishing, Santa Barbara, CA.
Baram Y., (1988). Nested Neural Networks, NASA Technical Memorandum 101032.
Copson, G., (1995). Coals to Newcastle: Part 1. A study of offender profiling. Home Office, Police Research Group London.
Douglas, J.E.& al. (1986), Criminal profiling from crime scene analysis. Behavioural Sciences and the Law, 4, 401-421. https://doi.org/10.1002/bsl.2370040405
Douglas, J. E., & Munn, C., (1992). Violent crime scene analysis: Modus operandi, signature, and staging. FBI Law Enforcement Bulletin 62, 1–20.
Fredrickson, D.D. & Siljander, R.P. (2002). Racial profiling: Eliminating the confusion between racial and criminal profiling and clarifying what constitutes unfair discrimination and persecution. Charles C. Thomas Publisher, Ltd., Springfield.
Galushkin A.I. (2007). Neural Networks Theory, Springer-Verlag, Berlin
Grammatikas V. (2008), EU Counter‐terrorist Policies: Security vs. Human Rights? HUMSEC, Working papers https://www.files.ethz.ch/isn/102346/4_Grammatikas.pdf
Müller B. & Reinhardt J. (1990). Neural Networks: An Introduction, Springer-Verlag, Berlin.
Gupta D., (1997). An Early Warning About Forecasts: Oracle to Academics, in Schmeidl S. & Adelman H., Synergy in Early Warning Conference Proceedings, Toronto, Canada, Marzo 15-18.
Yegnanarayana B. (2004). Artificial Neural Networks (11° edizione), Prentice-Hall of India Pvt.Ltd, New Delhi.
[1] Bumgarner, J., (2004). Profiling and Criminal Justice in America. A Reference Handbook. Bloomsbury Publishing, Santa Barbara, CA.
[2] Copson, G., 1995. Coals to Newcastle: Part 1. A study of offender profiling. Home Office, Police Research Group London.
[3] Fredrickson e Siljander in Fredrickson, D.D. & Siljander, R.P. (2002). Racial profiling: Eliminating the confusion between racial and criminal profiling and clarifying what constitutes unfair discrimination and persecution. Charles C. Thomas Publisher, Ltd., Springfield.
[4] Fredrickson, D.D. & Siljander, R.P., op. cit.
[5] Douglas, J. E., & Munn, C., (1992). Violent crime scene analysis: Modus operandi, signature, and staging. FBI Law Enforcement Bulletin 62, 1–20.
[6] Douglas, J.E. et al. (1986), Criminal profiling from crime scene analysis. Behavioural Sciences and the Law, 4, 401-421. https://doi.org/10.1002/bsl.2370040405
[7] «On the other hand, according to the information that was released by the British police and press, the four identified suicide terrorists were British citizens, raised in Britain, properly incorporated within the local society, while three of them were also born in Britain. This crucial difference seems to bring Europe against a new type of terrorist threat, not anticipated before: the “next door” terrorist which, moreover, does not fit the typical model of a religious fanatic Arab», Grammatikas V. (2008), EU Counter‐terrorist Policies: Security vs. Human Rights? HUMSEC, Working papers https://www.files.ethz.ch/isn/102346/4_Grammatikas.pdf
[8] Müller B. & Reinhardt J. (1990). Neural Networks: An Introduction, Springer-Verlag, Berlin.
[9] Gupta D., (1997). An Early Warning About Forecasts: Oracle to Academics, in Schmeidl S. & Adelman H., Synergy in Early Warning Conference Proceedings, Toronto, Canada, Marzo 15-18.
[10] La funzione può essere di vario tipo; la più utilizzata è la funzione sigmoide.
[11] Per una classificazione dei tipi di rete neurale cfr. Bedessi S. (2019). Intelligenza artificiale e fenomeni sociali. Previsioni con le reti neurali, Apogeo Education, Milano.
[12] In via teorica si dovrebbe scegliere il tipo di rete neurale da utilizzare in funzione del problema da risolvere; nella realtà quasi tutti i ricercatori si riducono ad utilizzare un determinato tipo di rete a causa della maggiore disponibilità dello stesso sul mercato del software.
[13] Nel caso della rete MLP: numero neuroni, architettura, pesi sinaptici iniziali, tasso di apprendimento, funzioni di output utilizzate, ecc.).
[14] RBF sta per radial basis function, in quanto questa rete utilizza una funzione a base radiale per calcolare il segnale di uscita dei neuroni.
[15] “Rumore” in questo senso si ha quando le misurazioni dei valori di una variabile sono disturbate da un’altra variabile, peraltro non influente sul fenomeno.
[16] Cfr. Bedessi S. (2007). L’utilizzazione di una rete neurale artificiale per la previsione delle presenze turistiche, in “Azienda pubblica”, I, Maggioli Editore, Santarcangelo di Romagna.
[17] Per epoca si intende la ripetizione nella presentazione dei set di dati alla rete.
[18] Per “momento” si intende un parametro che accelera l’apprendimento inteso come convergenza fra i valori prodotti dalla rete in questa fase e i valori presentati. Maggiore è il momento più rapido l’apprendimento anche se vi è il rischio di generare uno stato instabile della rete.
[19] Su questo vedere Bedessi S. (2019). Intelligenza artificiale e fenomeni sociali. Previsioni con le reti neurali, Apogeo Education, Milano.
[20] Baram Y., (1988). Nested Neural Networks, NASA Technical Memorandum 101032.
[21] Regolamento del Parlamento europeo e del Consiglio che stabilisce regole armonizzate sull’intelligenza artificiale e modifica i regolamenti (CE) n. 300/2008, (UE) n. 167/2013, (UE) n. 168/2013, (UE) 2018/858, (UE) 2018/1139 e (UE) 2019/2144 e le direttive 2014/90/UE, (UE) 2016/797 e (UE) 2020/1828.