Architettura della rete neurale superficiale multilivello
Questo argomento presenta parte di un tipico workflow di una rete superficiale multilivello. Per ulteriori informazioni e altri passaggi, vedere Reti neurali superficiali multilivello e addestramento sulla retropropagazione.
Modello di neurone (logsig, tansig, purelin)
Di seguito, viene mostrato un neurone elementare con input R. Ciascun input è ponderato con un'appropriata w. La somma degli input ponderati e del bias costituisce gli input della funzione di trasferimento f. I neuroni possono utilizzare qualsiasi funzione di trasferimento differenziabile f per generare l'output.
Le reti multilivello utilizzano spesso la funzione di trasferimento a sigmoide logaritmica logsig
.
La funzione logsig
genera output compresi tra 0 e 1 al progredire dell'input netto del neurone dall'infinito negativo all'infinito positivo.
In alternativa, le reti multilivello possono utilizzare la funzione di trasferimento tan-sigmoidale tansig
.
I neuroni di output sigmoidali sono spesso utilizzati per problemi di pattern recognition mentre i neuroni di output lineari sono utilizzati per problemi di adattamento delle funzioni. Di seguito, viene mostrata la funzione di trasferimento lineare purelin
.
Le tre funzioni di trasferimento qui descritte sono le funzioni di trasferimento più comunemente utilizzate per le reti multilivello, ma se lo si desidera è possibile creare e utilizzare altre funzioni di trasferimento differenziabili.
Rete neurale feed-forward
Una rete a singolo livello di neuroni S logsig
con R input viene mostrata qui di seguito nel dettaglio sulla sinistra, con un diagramma dei livelli sulla destra.
Le reti feed-forward presentano spesso uno o più livelli nascosti di neuroni sigmoidali seguiti da un livello di output di neuroni lineari. Livelli multipli di neuroni con funzioni di trasferimento non lineari consento alla rete di apprendere le relazioni non lineari tra i vettori di input e i vettori di output. Il livello di output lineare è utilizzato principalmente per i problemi di adattamento delle funzioni (o di regressione non lineare).
Se invece si desidera vincolare gli output di una rete (ad esempio tra 0 e 1), il livello di output dovrebbe utilizzare una funzione di trasferimento sigmoidale (come logsig
). Questo è il caso in cui la rete è utilizzata per problemi di pattern recognition (nei quali la decisione viene presa dalla rete).
Per le reti multilivello, il numero del livello determina l'apice della matrice ponderale. La notazione appropriata è utilizzata nella rete a due livelli tansig
/purelin
mostrata di seguito.
Questa rete può essere utilizzata come approssimatore generale di funzioni. Può approssimare arbitrariamente qualsiasi funzione con un numero finito di discontinuità in modo corretto, dato un numero sufficiente di neuroni nel livello nascosto.
Adesso che l'architettura della rete multilivello è stata definita, nelle sezioni seguenti viene descritto il processo di progettazione.