Νευρωνικό Δίκτυο — Πώς λειτουργούν τα Τεχνητά Νευρωνικά Δίκτυα

Ένα νευρωνικό δίκτυο είναι ένα μαθηματικό μοντέλο που μετατρέπει εισόδους σε εξόδους περνώντας αριθμούς μέσα από επίπεδα απλών πράξεων. Κάθε επίπεδο παίρνει τις προηγούμενες τιμές, σχηματίζει σταθμισμένα αθροίσματα, προσθέτει μετατοπίσεις, εφαρμόζει μια μη γραμμική συνάρτηση ενεργοποίησης και προωθεί το αποτέλεσμα.

Αυτή η περιγραφή ακούγεται αφηρημένη, αλλά η βασική ιδέα είναι μικρή: ένα δίκτυο μαθαίνει πολλά ρυθμιζόμενα βάρη ώστε χρήσιμα μοτίβα στην είσοδο να οδηγούν σε χρήσιμες προβλέψεις στην έξοδο.

Τι Είναι Ένα Νευρωνικό Δίκτυο

Για έναν νευρώνα με εισόδους $x_1, x_2, \dots, x_n$ , ο βασικός υπολογισμός είναι

z = w_1x_1 + w_2x_2 + \dots + w_nx_n + b

και ακολουθεί μια ενεργοποίηση:

a = g(z)

Εδώ τα $w_1, \dots, w_n$ είναι βάρη, το $b$ είναι μια μετατόπιση και το $g$ είναι μια συνάρτηση ενεργοποίησης όπως ReLU, sigmoid ή tanh.

Ένα πλήρες προωθητικό νευρωνικό δίκτυο επαναλαμβάνει αυτό το μοτίβο σε πολλά επίπεδα. Σε συμπαγή μορφή, ένα επίπεδο γράφεται συχνά ως

a^{(l)} = g\!\left(W^{(l)} a^{(l-1)} + b^{(l)}\right)

όπου το $a^{(l-1)}$ είναι η έξοδος του προηγούμενου επιπέδου.

Η Διαίσθηση Που Συνήθως Το Κάνει Να Γίνεται Κατανοητό

Κάθε νευρώνας θέτει μια σταθμισμένη ερώτηση για την είσοδο που βλέπει. Μεγάλα θετικά βάρη κάνουν ορισμένα χαρακτηριστικά να μετρούν περισσότερο. Τα αρνητικά βάρη μπορούν να λειτουργήσουν αντίθετα σε ένα μοτίβο. Η μετατόπιση αλλάζει το κατώφλι. Η συνάρτηση ενεργοποίησης αποφασίζει έπειτα πόσο έντονα θα ανταποκριθεί αυτός ο νευρώνας.

Η στοίβαξη επιπέδων επιτρέπει στο δίκτυο να χτίζει χαρακτηριστικά σε στάδια. Τα πρώτα επίπεδα ανιχνεύουν απλά μοτίβα. Τα επόμενα τα συνδυάζουν σε πιο χρήσιμα εσωτερικά σήματα για την τελική εργασία.

Γι’ αυτό τα νευρωνικά δίκτυα είναι κάτι περισσότερο από «πολλοί τύποι ταυτόχρονα». Είναι συνθέσεις απλών συναρτήσεων, και αυτή η σύνθεση είναι που τους δίνει ευελιξία.

Ένα Λυμένο Παράδειγμα

Σκέψου ένα πολύ μικρό δίκτυο με δύο εισόδους, ένα κρυφό επίπεδο και μία έξοδο. Έστω ότι η είσοδος είναι

x = \begin{bmatrix} 2 \\ 1 \end{bmatrix}

Υπόθεσε ότι το κρυφό επίπεδο έχει δύο νευρώνες και χρησιμοποιεί ReLU, όπου

\operatorname{ReLU}(z) = \max(0, z)

Πάρε τους εξής υπολογισμούς για το κρυφό επίπεδο:

z_1 = 1 \cdot 2 + (-1) \cdot 1 + 0 = 1

h_1 = \operatorname{ReLU}(z_1) = 1

z_2 = 0.5 \cdot 2 + 0.5 \cdot 1 - 1 = 0.5

h_2 = \operatorname{ReLU}(z_2) = 0.5

Τώρα στείλε αυτές τις κρυφές τιμές στον νευρώνα εξόδου:

s = 2h_1 - h_2 = 2(1) - 0.5 = 1.5

Αν ο κανόνας είναι «πρόβλεψε κλάση 1 όταν $s > 0$ », τότε αυτή η είσοδος ταξινομείται ως κλάση 1.

Το σημαντικό σημείο δεν είναι οι συγκεκριμένοι αριθμοί. Είναι η δομή:

πάρε τις εισόδους
σχημάτισε σταθμισμένα αθροίσματα
εφάρμοσε μη γραμμικές ενεργοποιήσεις
επανάλαβε
διάβασε το τελικό σκορ

Αυτό είναι ένα νευρωνικό δίκτυο που εκτελεί ένα forward pass.

Πώς Μαθαίνει Ένα Νευρωνικό Δίκτυο

Η χρήση ενός δικτύου είναι ένα πρόβλημα. Η εκπαίδευσή του είναι άλλο.

Στη συνηθισμένη επιβλεπόμενη μάθηση, το δίκτυο κάνει πρώτα μια πρόβλεψη. Έπειτα, μια συνάρτηση απώλειας μετρά πόσο απέχει αυτή η πρόβλεψη από τον στόχο. Η εκπαίδευση με βάση τις κλίσεις υπολογίζει πώς αλλάζει η απώλεια ως προς κάθε βάρος και μετατόπιση και μετά τα ενημερώνει ώστε να μειωθεί η απώλεια.

Στη σύγχρονη πρακτική, αυτό συνήθως σημαίνει backpropagation μαζί με gradient descent ή κάποιον σχετικό βελτιστοποιητή. Αυτή η διάταξη βασίζεται σε ένα μοντέλο και μια απώλεια που είναι παραγωγίσιμα ή τουλάχιστον τμηματικά παραγωγίσιμα αρκετά ώστε να λειτουργούν οι μέθοδοι κλίσης.

Η σύντομη εκδοχή είναι:

\text{prediction} \to \text{loss} \to \text{gradients} \to \text{parameter update}

Σε πολλά παραδείγματα, τα βάρη μετακινούνται προς μοτίβα που βοηθούν την εργασία.

Συνηθισμένα Λάθη

Η Σκέψη Ότι Περισσότερα Επίπεδα Σημαίνουν Αυτόματα Καλύτερα Αποτελέσματα

Δεν σημαίνει. Περισσότερα επίπεδα αυξάνουν τη χωρητικότητα, αλλά κάνουν επίσης πιο απαιτητική τη βελτιστοποίηση, τις ανάγκες σε δεδομένα και τον έλεγχο της υπερπροσαρμογής.

Το Να Ξεχνάς Γιατί Η Μη Γραμμικότητα Έχει Σημασία

Αν κάθε επίπεδο είναι μόνο γραμμικό, τότε όλο το δίκτυο παραμένει απλώς ένας γραμμικός μετασχηματισμός. Οι συναρτήσεις ενεργοποίησης είναι αυτές που επιτρέπουν στα βαθιά δίκτυα να αναπαριστούν πιο σύνθετες σχέσεις.

Το Να Θεωρείς Την Έξοδο Εγγυημένη Βεβαιότητα

Η έξοδος ενός δικτύου είναι χρήσιμη μόνο όσο χρήσιμα είναι το μοντέλο, τα δεδομένα και η διαδικασία εκπαίδευσης πίσω της. Ένα υψηλό σκορ δεν είναι το ίδιο πράγμα με μια απόδειξη.

Η Αγνόηση Της Αναπαράστασης Της Εισόδου

Τα δίκτυα δεν μαθαίνουν από την ακατέργαστη σημασία. Μαθαίνουν από την αριθμητική αναπαράσταση που λαμβάνουν. Αν οι είσοδοι είναι φτωχές, ασυνεπείς ή λείπει σημαντική δομή, η απόδοση του δικτύου συνήθως θα υποφέρει.

Πότε Χρησιμοποιούνται Τα Νευρωνικά Δίκτυα

Τα νευρωνικά δίκτυα χρησιμοποιούνται όταν η σχέση ανάμεσα στην είσοδο και την έξοδο είναι αρκετά πολύπλοκη ώστε οι χειροποίητοι κανόνες να είναι εύθραυστοι ή ελλιπείς. Συνηθισμένα παραδείγματα είναι η αναγνώριση εικόνας, η ομιλία, η γλωσσική μοντελοποίηση, τα συστήματα συστάσεων και ορισμένες εργασίες πρόβλεψης.

Δεν είναι αυτόματα η καλύτερη επιλογή για κάθε πρόβλημα. Σε μικρά, δομημένα σύνολα δεδομένων, απλούστερα μοντέλα μπορεί να είναι ευκολότερα στην εκπαίδευση, ευκολότερα στην ερμηνεία και μερικές φορές εξίσου αποτελεσματικά.

Ένα Καλό Νοητικό Μοντέλο

Σκέψου ένα νευρωνικό δίκτυο ως μια πολυεπίπεδη συνάρτηση με πολλά ρυθμιζόμενα κουμπιά. Το forward pass μετατρέπει μία είσοδο σε μία έξοδο. Η εκπαίδευση αλλάζει αυτά τα κουμπιά ώστε οι μελλοντικές έξοδοι να γίνονται πιο χρήσιμες για την εργασία.

Αυτός είναι ο πιο καθαρός τρόπος να κρατήσεις και τις δύο ιδέες μαζί: τα νευρωνικά δίκτυα υπολογίζουν μέσω σύνθεσης και μαθαίνουν προσαρμόζοντας παραμέτρους για να μειώσουν το σφάλμα.

Δοκίμασε Τη Δική Σου Εκδοχή

Κράτησε το ίδιο μικρό δίκτυο, αλλά άλλαξε την είσοδο από $(2, 1)$ σε $(0, 3)$ . Υπολόγισε ξανά τα $z_1$ , $z_2$ , $h_1$ , $h_2$ και το τελικό σκορ $s$ . Έπειτα άλλαξε ένα βάρος και δες ποιο μέρος της εξόδου μετακινείται. Αυτή η μικρή άσκηση κάνει την ιδέα του forward pass πολύ πιο συγκεκριμένη από την απλή απομνημόνευση ορισμών.

Συχνές ερωτήσεις

Είναι ένα νευρωνικό δίκτυο απλώς ένας μεγάλος τύπος;: Κατά μία έννοια, ναι. Ένα νευρωνικό δίκτυο είναι μια μαθηματική συνάρτηση που προκύπτει από τη σύνθεση πολλών μικρότερων συναρτήσεων, συνήθως σταθμισμένων αθροισμάτων μαζί με μη γραμμικές συναρτήσεις ενεργοποίησης.
Γιατί τα νευρωνικά δίκτυα χρειάζονται μη γραμμικές συναρτήσεις ενεργοποίησης;: Χωρίς μη γραμμικές ενεργοποιήσεις, η στοίβαξη πολλών επιπέδων καταρρέει πάλι σε έναν μόνο γραμμικό μετασχηματισμό, κάτι που περιορίζει σοβαρά το τι μπορεί να αναπαραστήσει το δίκτυο.

Χρειάζεσαι βοήθεια με μια άσκηση;

Ανέβασε την ερώτησή σου και πάρε επαληθευμένη λύση βήμα-βήμα σε δευτερόλεπτα.

Άνοιξε το GPAI Solver →