Τεχνητή νοημοσύνη στο Yandex.Browser. Το "Yandex" άρχισε να χρησιμοποιεί νευρωνικά δίκτυα στο "Translator" για να βελτιώσει τη μετάφραση νευρωνικό δίκτυο μεταφραστή Yandex

Υπάρχουν περισσότεροι από 630 εκατομμύρια ιστότοποι στο σύγχρονο Διαδίκτυο, αλλά μόνο το 6% από αυτούς περιέχουν περιεχόμενο ρωσικής γλώσσας. Το γλωσσικό εμπόδιο είναι το κύριο πρόβλημα της διάδοσης της γνώσης μεταξύ των χρηστών του δικτύου και πιστεύουμε ότι θα πρέπει να λυθεί όχι μόνο με τη διδασκαλία ξένων γλωσσών, αλλά και με τη χρήση αυτόματης αυτόματης μετάφρασης στο πρόγραμμα περιήγησης.

Σήμερα θα πούμε στους αναγνώστες του Habr για δύο σημαντικές τεχνολογικές αλλαγές στον μεταφραστή Yandex.Browser. Πρώτον, η μετάφραση επιλεγμένων λέξεων και φράσεων χρησιμοποιεί τώρα ένα υβριδικό μοντέλο και θα θυμηθούμε πώς αυτή η προσέγγιση διαφέρει από τη χρήση μόνο νευρωνικών δικτύων. Δεύτερον, τα νευρωνικά δίκτυα του μεταφραστή λαμβάνουν πλέον υπόψη τη δομή των ιστοσελίδων, τα χαρακτηριστικά των οποίων θα μιλήσουμε επίσης κάτω από την περικοπή.

Υβριδικός μεταφραστής λέξεων και φράσεων

Τα πρώτα συστήματα αυτόματης μετάφρασης βασίστηκαν σε λεξικά και κανόνες(στην πραγματικότητα, χειρόγραφες κανονικές εκφράσεις), που καθόρισαν την ποιότητα της μετάφρασης. Οι επαγγελματίες γλωσσολόγοι έχουν εργαστεί για χρόνια για να αναπτύξουν όλο και πιο λεπτομερή χειρωνακτικοί κανόνες. Η εργασία ήταν τόσο επίπονη που δόθηκε σοβαρή προσοχή μόνο στα πιο δημοφιλή ζεύγη γλωσσών, αλλά ακόμη και μέσα σε αυτά οι μηχανές απέδιδαν κακώς. Μια ζωντανή γλώσσα είναι ένα πολύ περίπλοκο σύστημα που δεν υπακούει καλά στους κανόνες. Είναι ακόμη πιο δύσκολο να περιγράψουμε τους κανόνες αντιστοίχισης δύο γλωσσών.

Ο μόνος τρόπος για μια μηχανή να προσαρμόζεται συνεχώς στις μεταβαλλόμενες συνθήκες είναι να μαθαίνει μόνη της από έναν μεγάλο αριθμό παράλληλων κειμένων (το ίδιο σε νόημα, αλλά γραμμένο σε διαφορετικές γλώσσες). Αυτή είναι η στατιστική προσέγγιση της μηχανικής μετάφρασης. Ο υπολογιστής συγκρίνει παράλληλα κείμενα και προσδιορίζει ανεξάρτητα μοτίβα.

Στο στατιστικός μεταφραστήςυπάρχουν και πλεονεκτήματα και μειονεκτήματα. Από τη μια θυμάται καλά σπάνιες και σύνθετες λέξεις και φράσεις. Αν συναντήθηκαν σε παράλληλα κείμενα, ο μεταφραστής θα τα θυμάται και θα συνεχίσει να μεταφράζει σωστά. Από την άλλη πλευρά, το αποτέλεσμα της μετάφρασης μπορεί να μοιάζει με ένα ολοκληρωμένο παζλ: η συνολική εικόνα φαίνεται να είναι ξεκάθαρη, αλλά αν κοιτάξετε προσεκτικά, μπορείτε να δείτε ότι αποτελείται από ξεχωριστά κομμάτια. Ο λόγος είναι ότι ο μεταφραστής αντιπροσωπεύει μεμονωμένες λέξειςμε τη μορφή αναγνωριστικών που δεν αντικατοπτρίζουν τη μεταξύ τους σχέση. Δεν ταιριάζει με τον τρόπο που οι άνθρωποι αντιλαμβάνονται τη γλώσσα, όπου οι λέξεις ορίζονται από το πώς χρησιμοποιούνται, πώς σχετίζονται και διαφέρουν από άλλες λέξεις.

Βοηθά στην επίλυση αυτού του προβλήματος νευρωνικά δίκτυα. Η ενσωμάτωση λέξεων, που χρησιμοποιείται στη νευρωνική μηχανική μετάφραση, αντιστοιχίζει συνήθως κάθε λέξη σε ένα διάνυσμα μήκους πολλών εκατοντάδων αριθμών. Τα διανύσματα, σε αντίθεση με τα απλά αναγνωριστικά από τη στατιστική προσέγγιση, σχηματίζονται κατά την εκπαίδευση ενός νευρωνικού δικτύου και λαμβάνουν υπόψη τις σχέσεις μεταξύ των λέξεων. Για παράδειγμα, το μοντέλο μπορεί να αναγνωρίσει ότι επειδή οι λέξεις "τσάι" και "καφές" εμφανίζονται συχνά σε παρόμοια πλαίσια, και οι δύο αυτές λέξεις θα πρέπει να είναι δυνατές στο πλαίσιο της νέας λέξης "χυμένο", η οποία, ας πούμε, μόνο μία από αυτές συναντάται στο τα δεδομένα της εκπαίδευσης.

Ωστόσο, η διαδικασία εκμάθησης διανυσματικών αναπαραστάσεων είναι σαφώς πιο απαιτητική από στατιστική άποψη από την απομνημόνευση των παραδειγμάτων. Επιπλέον, δεν είναι σαφές τι να κάνετε με αυτές τις σπάνιες λέξεις εισόδου που δεν είναι αρκετά συχνές ώστε το δίκτυο να δημιουργήσει μια αποδεκτή διανυσματική αναπαράσταση για αυτές. Σε αυτή την περίπτωση, είναι λογικό να συνδυάζονται και οι δύο μέθοδοι.

Από πέρυσι, το Yandex.Translate χρησιμοποιεί υβριδικό μοντέλο. Όταν ο Μεταφραστής λαμβάνει ένα κείμενο από τον χρήστη, το στέλνει και στα δύο συστήματα για μετάφραση - τόσο στο νευρωνικό δίκτυο όσο και στον στατιστικό μεταφραστή. Στη συνέχεια, ένας αλγόριθμος που βασίζεται στη μέθοδο εκμάθησης αξιολογεί ποια μετάφραση είναι καλύτερη. Κατά τη βαθμολόγηση, λαμβάνονται υπόψη δεκάδες παράγοντες - από το μήκος της πρότασης (οι σύντομες φράσεις μεταφράζονται καλύτερα από ένα στατιστικό μοντέλο) έως τη σύνταξη. Η μετάφραση που αναγνωρίζεται ως η καλύτερη εμφανίζεται στον χρήστη.

Είναι το υβριδικό μοντέλο που χρησιμοποιείται πλέον στο Yandex.Browser, όταν ο χρήστης επιλέγει συγκεκριμένες λέξεις και φράσεις στη σελίδα για μετάφραση.

Αυτή η λειτουργία είναι ιδιαίτερα βολική για όσους έχουν γενική γνώση μιας ξένης γλώσσας και θέλουν να μεταφράζουν μόνο άγνωστες λέξεις. Αλλά αν, για παράδειγμα, αντί για τα συνηθισμένα αγγλικά, συναντάτε κινέζικα, τότε θα είναι δύσκολο να το κάνετε χωρίς μεταφραστή σελίδας. Φαίνεται ότι η διαφορά είναι μόνο στον όγκο του μεταφρασμένου κειμένου, αλλά δεν είναι όλα τόσο απλά.

Μεταφραστής ιστοσελίδων νευρωνικών δικτύων

Από την εποχή του πειράματος του Τζορτζτάουν μέχρι σχεδόν σήμερα, όλα τα συστήματα αυτόματης μετάφρασης έχουν εκπαιδευτεί να μεταφράζουν κάθε πρόταση του κειμένου πηγής ξεχωριστά. Ενώ μια ιστοσελίδα δεν είναι απλώς ένα σύνολο προτάσεων, αλλά ένα δομημένο κείμενο που περιέχει θεμελιωδώς διαφορετικά στοιχεία. Εξετάστε τα βασικά στοιχεία των περισσότερων σελίδων.

επί κεφαλής. Συνήθως φωτεινό και μεγάλο κείμενο που βλέπουμε αμέσως όταν μπαίνουμε στη σελίδα. Ο τίτλος περιέχει συχνά την ουσία της είδησης, επομένως είναι σημαντικό να μεταφραστεί σωστά. Αλλά είναι δύσκολο να το κάνετε αυτό, γιατί το κείμενο στον τίτλο είναι μικρό και χωρίς να κατανοήσετε το πλαίσιο, μπορείτε να κάνετε λάθος. Στην περίπτωση των Αγγλικών, τα πράγματα είναι ακόμη πιο περίπλοκα, επειδή οι τίτλοι της αγγλικής γλώσσας συχνά περιέχουν φράσεις με μη παραδοσιακή γραμματική, αόριστα ή ακόμα και παραλείψεις ρημάτων. Για παράδειγμα, Ανακοινώθηκε το prequel του Game of Thrones.

Πλοήγηση. Λέξεις και φράσεις που μας βοηθούν να περιηγηθούμε στον ιστότοπο. Για παράδειγμα, Σπίτι, Πίσωκαι Ο λογαριασμός μουΔύσκολα αξίζει να μεταφραστούν ως "Αρχική σελίδα", "Επιστροφή" και "Ο λογαριασμός μου" εάν βρίσκονται στο μενού του ιστότοπου και όχι στο κείμενο της δημοσίευσης.

Κύριο κείμενο. Όλα είναι πιο εύκολα μαζί του, ελάχιστα διαφέρει από τα συνηθισμένα κείμενα και προτάσεις που μπορούμε να βρούμε στα βιβλία. Αλλά ακόμη και εδώ είναι σημαντικό να διασφαλίζεται η συνέπεια των μεταφράσεων, δηλαδή να διασφαλίζεται ότι οι ίδιοι όροι και έννοιες μεταφράζονται με τον ίδιο τρόπο στην ίδια ιστοσελίδα.

Για υψηλής ποιότητας μετάφραση ιστοσελίδων, δεν αρκεί η χρήση νευρωνικού δικτύου ή υβριδικού μοντέλου - είναι επίσης απαραίτητο να ληφθεί υπόψη η δομή των σελίδων. Και για αυτό έπρεπε να αντιμετωπίσουμε πολλές τεχνολογικές δυσκολίες.

Ταξινόμηση τμημάτων κειμένου. Για να γίνει αυτό, χρησιμοποιούμε ξανά το CatBoost και παράγοντες που βασίζονται τόσο στο ίδιο το κείμενο όσο και στη σήμανση HTML των εγγράφων (ετικέτα, μέγεθος κειμένου, αριθμός συνδέσμων ανά μονάδα κειμένου, ...). Οι παράγοντες είναι αρκετά ετερογενείς, επομένως είναι το CatBoost (με βάση την ενίσχυση κλίσης) που δείχνει τα καλύτερα αποτελέσματα (η ακρίβεια ταξινόμησης είναι πάνω από 95%). Αλλά η κατάταξη από μόνη της δεν αρκεί.

Παραμόρφωση δεδομένων. Παραδοσιακά, οι αλγόριθμοι Yandex.Translate εκπαιδεύονται σε κείμενα από το Διαδίκτυο. Φαίνεται ότι αυτή είναι μια ιδανική λύση για την εκπαίδευση ενός μεταφραστή ιστοσελίδων (με άλλα λόγια, το δίκτυο μαθαίνει από κείμενα ίδιας φύσης με εκείνα τα κείμενα στα οποία πρόκειται να το εφαρμόσουμε). Αλλά μόλις μάθαμε να διαχωρίζουμε διαφορετικά τμήματα το ένα από το άλλο, ανακαλύψαμε ένα ενδιαφέρον χαρακτηριστικό. Κατά μέσο όρο, το περιεχόμενο αποτελεί περίπου το 85% του συνόλου του κειμένου σε ιστότοπους, με τις επικεφαλίδες και την πλοήγηση να αντιπροσωπεύουν μόνο το 7,5% η καθεμία. Θυμηθείτε επίσης ότι οι επικεφαλίδες και τα στοιχεία πλοήγησης διαφέρουν σημαντικά στο ύφος και τη γραμματική από το υπόλοιπο κείμενο. Αυτοί οι δύο παράγοντες σε συνδυασμό οδηγούν στο πρόβλημα της ασάφειας των δεδομένων. Είναι πιο κερδοφόρο για ένα νευρωνικό δίκτυο απλώς να αγνοεί τα χαρακτηριστικά αυτών των τμημάτων που αναπαρίστανται πολύ κακώς στο δείγμα εκπαίδευσης. Το δίκτυο μαθαίνει να μεταφράζει καλά μόνο το κύριο κείμενο, το οποίο υποφέρει από την ποιότητα της μετάφρασης των επικεφαλίδων και της πλοήγησης. Για να εξουδετερώσουμε αυτό το δυσάρεστο αποτέλεσμα, κάναμε δύο πράγματα: εκχωρήσαμε έναν από τους τρεις τύπους τμημάτων (περιεχόμενο, επικεφαλίδα ή πλοήγηση) ως μετα-πληροφορίες σε κάθε ζεύγος παράλληλων προτάσεων και αυξήσαμε τεχνητά τη συγκέντρωση των δύο τελευταίων στο εκπαιδευτικό σώμα σε 33% λόγω του γεγονότος ότι άρχισε να εμφανίζει παρόμοια παραδείγματα στο μαθησιακό νευρωνικό δίκτυο συχνότερα.

Εκμάθηση πολλαπλών εργασιών. Δεδομένου ότι μπορούμε πλέον να διαιρέσουμε τα κείμενα σε ιστοσελίδες σε τρεις κατηγορίες τμημάτων, μπορεί να φαίνεται σαν μια φυσική ιδέα να εκπαιδεύσουμε τρία ξεχωριστά μοντέλα, καθένα από τα οποία θα αντιμετωπίζει τη μετάφραση διαφορετικού τύπου κειμένου - επικεφαλίδες, πλοήγηση ή περιεχόμενο. Αυτό λειτουργεί πραγματικά καλά, αλλά το σχήμα λειτουργεί ακόμα καλύτερα, στο οποίο εκπαιδεύουμε ένα νευρωνικό δίκτυο να μεταφράζει όλα τα είδη κειμένων ταυτόχρονα. Το κλειδί για την κατανόηση βρίσκεται στην ιδέα της μάθησης πολλαπλών εργασιών (MTL): εάν είναι μεταξύ πολλαπλών εργασιών μηχανική μάθησηΕάν υπάρχει εσωτερική σύνδεση, τότε ένα μοντέλο που μαθαίνει να επιλύει αυτά τα προβλήματα ταυτόχρονα μπορεί να μάθει να επιλύει καθένα από τα προβλήματα καλύτερα από ένα εξειδικευμένο μοντέλο στενού προφίλ!

τελειοποίηση. Είχαμε ήδη μια πολύ καλή αυτόματη μετάφραση, επομένως θα ήταν παράλογο να εκπαιδεύσουμε έναν νέο μεταφραστή για το Yandex.Browser από την αρχή. Είναι πιο λογικό να πάρουμε ένα βασικό σύστημα μετάφρασης συνηθισμένων κειμένων και να το εκπαιδεύσουμε να δουλεύει με ιστοσελίδες. Στο πλαίσιο των νευρωνικών δικτύων, αυτό αναφέρεται συχνά ως τελειοποίηση. Αν όμως προσεγγίσουμε αυτό το πρόβλημα κατά μέτωπο, δηλ. απλά αρχικοποιήστε τα βάρη του νευρωνικού δικτύου με τιμές από το ολοκληρωμένο μοντέλο και αρχίστε να μαθαίνετε από νέα δεδομένα, ενδέχεται να αντιμετωπίσετε το φαινόμενο μετατόπισης τομέα: καθώς μαθαίνετε, η ποιότητα της μετάφρασης των ιστοσελίδων (εντός τομέα) θα αυξάνεται, αλλά η ποιότητα της μετάφρασης συνηθισμένων (εκτός τομέα) κειμένων θα πέσει. Για να απαλλαγούμε από αυτό το δυσάρεστο χαρακτηριστικό, κατά την πρόσθετη προπόνηση, επιβάλλουμε έναν επιπλέον περιορισμό στο νευρωνικό δίκτυο, απαγορεύοντάς του να αλλάζει υπερβολικά βάρη σε σύγκριση με την αρχική κατάσταση.

Μαθηματικά, αυτό εκφράζεται με την προσθήκη ενός όρου στη συνάρτηση απώλειας (συνάρτηση απώλειας), που είναι η απόσταση Kullback-Leibler (KL-απόκλιση) μεταξύ των κατανομών πιθανότητας δημιουργίας της επόμενης λέξης, που εκδόθηκε από το αρχικό και το εκπαιδευμένο δίκτυο. Όπως φαίνεται στην εικόνα, αυτό έχει ως αποτέλεσμα το γεγονός ότι η βελτίωση της ποιότητας της μετάφρασης των ιστοσελίδων δεν οδηγεί πλέον σε υποβάθμιση της μετάφρασης απλού κειμένου.

Γυάλισμα φράσεων συχνότητας από την πλοήγηση. Στη διαδικασία εργασίας για έναν νέο μεταφραστή, συλλέξαμε στατιστικά στοιχεία για τα κείμενα διαφόρων τμημάτων ιστοσελίδων και είδαμε κάτι ενδιαφέρον. Τα κείμενα που σχετίζονται με στοιχεία πλοήγησης είναι αρκετά τυποποιημένα, επομένως συχνά αντιπροσωπεύουν τις ίδιες φράσεις λέβητα. Έτσι είναι ισχυρό αποτέλεσμαότι περισσότερες από τις μισές φράσεις πλοήγησης που βρίσκονται στο Διαδίκτυο αντιστοιχούν σε μόνο 2.000 από τις πιο συχνές.

Φυσικά, το εκμεταλλευτήκαμε αυτό και δώσαμε πολλές χιλιάδες από τις πιο συχνές φράσεις και τις μεταφράσεις τους για επαλήθευση στους μεταφραστές μας προκειμένου να είμαστε απολύτως σίγουροι για την ποιότητά τους.

Εξωτερικές ευθυγραμμίσεις. Υπήρχε μια άλλη σημαντική απαίτηση για τον μεταφραστή ιστοσελίδας στο πρόγραμμα περιήγησης - δεν πρέπει να παραμορφώνει τη σήμανση. Όταν οι ετικέτες HTML τοποθετούνται εκτός προτάσεων ή στα όριά τους, δεν δημιουργείται πρόβλημα. Αλλά αν μέσα στην πρόταση υπάρχει, για παράδειγμα, δύο υπογραμμίστηκελόγια, τότε σε μετάφραση θέλουμε να δούμε «δύο υπογραμμίστηκεοι λέξεις". Εκείνοι. Ως αποτέλεσμα της μεταβίβασης, πρέπει να πληρούνται δύο προϋποθέσεις:

  1. Το υπογραμμισμένο απόσπασμα στη μετάφραση πρέπει να αντιστοιχεί ακριβώς στο υπογραμμισμένο απόσπασμα στο κείμενο πηγής.
  2. Η συνέπεια της μετάφρασης στα όρια του υπογραμμισμένου τμήματος δεν πρέπει να παραβιάζεται.
Για να διασφαλίσουμε αυτή τη συμπεριφορά, μεταφράζουμε πρώτα το κείμενο ως συνήθως και, στη συνέχεια, χρησιμοποιώντας στατιστικά μοντέλα ευθυγράμμισης λέξη προς λέξη, προσδιορίζουμε την αντιστοιχία μεταξύ τμημάτων της πηγής και των μεταφρασμένων κειμένων. Αυτό βοηθά να κατανοήσουμε τι πρέπει να υπογραμμιστεί (πλάγια γράμματα, υπερσύνδεση, ...).

Παρατηρητής διασταύρωσης. Τα ισχυρά μοντέλα μετάφρασης νευρωνικών δικτύων που έχουμε εκπαιδεύσει απαιτούν αισθητά περισσότερους υπολογιστικούς πόρους στους διακομιστές μας (τόσο CPU όσο και GPU) σε σχέση με προηγούμενες γενιές στατιστικών μοντέλων. Ταυτόχρονα, οι χρήστες δεν διαβάζουν πάντα τις σελίδες μέχρι το τέλος, επομένως η αποστολή ολόκληρου του κειμένου των ιστοσελίδων στο cloud φαίνεται περιττή. Για εξοικονόμηση πόρων διακομιστή και επισκεψιμότητας χρηστών, μάθαμε να χρησιμοποιεί το Translator



Η μηχανική μετάφραση με χρήση νευρωνικών δικτύων έχει προχωρήσει πολύ από την πρώτη επιστημονική έρευνασε αυτό το θέμα και μέχρι τη στιγμή που η Google ανακοίνωσε την πλήρη μεταφορά της υπηρεσίας Google Translate στη βαθιά εκμάθηση.

Όπως γνωρίζετε, ο νευρωνικός μεταφραστής βασίζεται στον μηχανισμό αμφίδρομων επαναλαμβανόμενων νευρωνικών δικτύων (Bidirectional Recurrent Neural Networks), που βασίζεται σε υπολογισμούς μήτρας, ο οποίος σας επιτρέπει να δημιουργήσετε σημαντικά πιο πολύπλοκα πιθανοτικά μοντέλα από τους μεταφραστές στατιστικών μηχανών. Ωστόσο, πάντα πίστευαν ότι η νευρική μετάφραση, όπως και η στατιστική μετάφραση, απαιτεί παράλληλα σώματα κειμένων σε δύο γλώσσες για εκμάθηση. Ένα νευρωνικό δίκτυο εκπαιδεύεται σε αυτά τα σώματα, λαμβάνοντας μια ανθρώπινη μετάφραση ως αναφορά.

Όπως έχει γίνει πλέον σαφές, τα νευρωνικά δίκτυα είναι σε θέση να κυριαρχήσουν νέα γλώσσαγια μετάφραση ακόμα και χωρίς παράλληλο σώμα κειμένων! Ο προεκτυπωτικός ιστότοπος arXiv.org δημοσίευσε δύο εργασίες για αυτό το θέμα ταυτόχρονα.

«Φανταστείτε ότι δίνετε σε έναν άνθρωπο πολλά κινέζικα βιβλία και πολλά αραβικά βιβλία - κανένα από αυτά δεν είναι το ίδιο - και αυτό το άτομο είναι εκπαιδευμένο να μεταφράζει από τα κινέζικα στα αραβικά. Φαίνεται αδύνατο, σωστά; Αλλά δείξαμε ότι ένας υπολογιστής μπορεί να το κάνει αυτό», λέει ο Mikel Artetxe, επιστήμονας υπολογιστών στο Πανεπιστήμιο της Χώρας των Βάσκων στο Σαν Σεμπαστιάν (Ισπανία).

Τα περισσότερα νευρωνικά δίκτυα μηχανικής μετάφρασης εκπαιδεύονται «με δάσκαλο», ο ρόλος του οποίου είναι απλώς ένα παράλληλο σύνολο κειμένων που μεταφράζονται από ένα άτομο. Στη διαδικασία μάθησης, χονδρικά μιλώντας, το νευρωνικό δίκτυο κάνει μια υπόθεση, ελέγχει με το πρότυπο και κάνει τις απαραίτητες προσαρμογές στα συστήματά του και μετά μαθαίνει περαιτέρω. Το πρόβλημα είναι ότι για ορισμένες γλώσσες στον κόσμο δεν υπάρχει ένας μεγάλος αριθμόςπαράλληλα κείμενα, επομένως δεν είναι προσβάσιμα στα παραδοσιακά νευρωνικά δίκτυα μηχανικής μετάφρασης.


Η «καθολική γλώσσα» του νευρωνικού δικτύου Google Neural Machine Translation (GNMT). Στην αριστερή εικόνα, ομάδες σημασιών κάθε λέξης εμφανίζονται με διαφορετικά χρώματα, στα δεξιά παρακάτω - οι έννοιες της λέξης που προέρχονται από διαφορετικές ανθρώπινες γλώσσες: Αγγλικά, Κορεάτικα και Ιαπωνικά

Αφού συντάξει έναν τεράστιο "άτλαντα" για κάθε γλώσσα, το σύστημα προσπαθεί στη συνέχεια να επικαλύψει έναν τέτοιο άτλαντα σε έναν άλλο - και εδώ είστε, έχετε έτοιμο κάποιο είδος παράλληλου σώματος κειμένου!

Είναι δυνατή η σύγκριση των σχημάτων των δύο προτεινόμενων αρχιτεκτονικών μάθησης χωρίς επίβλεψη.


Η αρχιτεκτονική του προτεινόμενου συστήματος. Για κάθε πρόταση στη γλώσσα L1, το σύστημα μαθαίνει την εναλλαγή δύο βημάτων: 1) καταστολή θορύβου(αποθόρυβος), που βελτιστοποιεί την πιθανότητα κωδικοποίησης μιας θορυβώδους έκδοσης μιας πρότασης με έναν κοινό κωδικοποιητή και την ανακατασκευή της από τον αποκωδικοποιητή L1. 2) αντίστροφη μετάφραση(πίσω μετάφραση) όταν μια πρόταση μεταφράζεται σε λειτουργία εξόδου (δηλαδή κωδικοποιείται από έναν κοινό κωδικοποιητή και αποκωδικοποιείται από αποκωδικοποιητή L2), και στη συνέχεια η πιθανότητα κωδικοποίησης αυτής της μεταφρασμένης πρότασης με έναν κοινό κωδικοποιητή και ανάκτησης της αρχικής πρότασης από έναν αποκωδικοποιητή L1 είναι βελτιστοποιημένη. Εικονογράφηση: Michela Artetxe et al.


Η προτεινόμενη αρχιτεκτονική και μαθησιακοί στόχοι του συστήματος (από τη δεύτερη επιστημονική εργασία). Η αρχιτεκτονική είναι ένα μοντέλο μετάφρασης πρόταση προς πρόταση όπου τόσο ο κωδικοποιητής όσο και ο αποκωδικοποιητής λειτουργούν σε δύο γλώσσες, ανάλογα με το αναγνωριστικό γλώσσας εισόδου, το οποίο ανταλλάσσει τους πίνακες αναζήτησης. Κορυφή (αυτοκωδικοποίηση): Το μοντέλο έχει εκπαιδευτεί για να εκτελεί αποθορυβοποίηση σε κάθε τομέα. Κάτω (μετάφραση): όπως και πριν, συν κωδικοποιούμε από άλλη γλώσσα, χρησιμοποιώντας ως είσοδο τη μετάφραση που παρήγαγε το μοντέλο στην προηγούμενη επανάληψη (μπλε πλαίσιο). Οι πράσινες ελλείψεις υποδεικνύουν όρους στη συνάρτηση απώλειας. Εικονογράφηση: Guillaume Lampl et al.

Και τα δυο επιστημονική εργασίαχρησιμοποιώντας μια εντυπωσιακά παρόμοια τεχνική με μικρές διαφορές. Αλλά και στις δύο περιπτώσεις, η μετάφραση πραγματοποιείται μέσω κάποιας ενδιάμεσης «γλώσσας» ή, για να το θέσω καλύτερα, μιας ενδιάμεσης διάστασης ή χώρου. Μέχρι στιγμής, τα νευρωνικά δίκτυα χωρίς δάσκαλο δεν δείχνουν πολύ υψηλή ποιότητα μετάφρασης, αλλά οι συγγραφείς λένε ότι είναι εύκολο να τη βελτιωθεί εάν χρησιμοποιήσετε λίγη βοήθεια από έναν δάσκαλο, μόλις τώρα, για χάρη της καθαρότητας του πείραμα, αυτό δεν έγινε.

Εργασίες που υποβλήθηκαν για το Διεθνές Συνέδριο 2018 για τις Μαθησιακές Αναπαραστάσεις. Κανένα από τα άρθρα δεν έχει δημοσιευθεί ακόμη στον επιστημονικό τύπο.

Οι ιστότοποι με ευρετήριο μηχανών αναζήτησης έχουν περισσότερα από μισό δισεκατομμύριο αντίγραφα και ο συνολικός αριθμός ιστοσελίδων είναι δεκάδες χιλιάδες φορές μεγαλύτερος. Το περιεχόμενο της ρωσικής γλώσσας καταλαμβάνει το 6% του συνόλου του Διαδικτύου.

Πώς να μεταφράσετε το επιθυμητό κείμενο γρήγορα και με τέτοιο τρόπο ώστε να διατηρείται το επιδιωκόμενο νόημα του συγγραφέα. Οι παλιές μέθοδοι των ενοτήτων μετάφρασης στατιστικού περιεχομένου λειτουργούν πολύ αμφίβολα, γιατί είναι αδύνατο να προσδιοριστεί με ακρίβεια η κλίση των λέξεων, του χρόνου και άλλων. Η φύση των λέξεων και οι συνδέσεις μεταξύ τους είναι περίπλοκες, γεγονός που μερικές φορές έκανε το αποτέλεσμα να φαίνεται πολύ αφύσικο.

Τώρα το Yandex χρησιμοποιεί αυτόματη αυτόματη μετάφραση, η οποία θα αυξήσει την ποιότητα του τελικού κειμένου. Μπορείτε να κάνετε λήψη της πιο πρόσφατης επίσημης έκδοσης του προγράμματος περιήγησης με μια νέα ενσωματωμένη μετάφραση.

Υβριδική μετάφραση φράσεων και λέξεων

Το πρόγραμμα περιήγησης Yandex είναι το μόνο που μπορεί να μεταφράσει τη σελίδα στο σύνολό της, καθώς και λέξεις και φράσεις ξεχωριστά. Η λειτουργία θα είναι πολύ χρήσιμη για εκείνους τους χρήστες που λίγο πολύ μιλούν μια ξένη γλώσσα, αλλά μερικές φορές αντιμετωπίζουν δυσκολίες μετάφρασης.

Το νευρωνικό δίκτυο που είναι ενσωματωμένο στον μηχανισμό μετάφρασης λέξεων δεν αντιμετώπιζε πάντα τις εργασίες που είχαν τεθεί, γιατί Οι σπάνιες λέξεις ήταν εξαιρετικά δύσκολο να ενσωματωθούν στο κείμενο και να το κάνουν ευανάγνωστο. Τώρα μια υβριδική μέθοδος έχει ενσωματωθεί στην εφαρμογή χρησιμοποιώντας παλιές και νέες τεχνολογίες.

Ο μηχανισμός είναι ο εξής: το πρόγραμμα δέχεται τις επιλεγμένες προτάσεις ή λέξεις, στη συνέχεια τις δίνει και στις δύο μονάδες του νευρωνικού δικτύου και στον στατιστικό μεταφραστή και ο ενσωματωμένος αλγόριθμος καθορίζει ποιο αποτέλεσμα είναι καλύτερο και στη συνέχεια το δίνει στον χρήστη.

Μεταφραστής νευρωνικών δικτύων

Το ξένο περιεχόμενο έχει σχεδιαστεί με πολύ συγκεκριμένο τρόπο:

  • Τα πρώτα γράμματα των λέξεων στις επικεφαλίδες γράφονται με κεφαλαία.
  • Οι προτάσεις χτίζονται με απλοποιημένη γραμματική, ορισμένες λέξεις παραλείπονται.

Τα μενού πλοήγησης σε ιστότοπους αναλύονται με βάση τη θέση τους, όπως η λέξη Πίσω, σωστά μεταφρασμένη πίσω (επιστροφή), όχι πίσω.

Για να ληφθούν υπόψη όλα τα προαναφερθέντα χαρακτηριστικά, οι προγραμματιστές εκπαίδευσαν επιπλέον ένα νευρωνικό δίκτυο, το οποίο χρησιμοποιεί ήδη μια τεράστια σειρά δεδομένων κειμένου. Τώρα η ποιότητα της μετάφρασης επηρεάζεται από τη θέση του περιεχομένου και τον σχεδιασμό του.

Αποτελέσματα της εφαρμοσμένης μετάφρασης

Η ποιότητα μιας μετάφρασης μπορεί να μετρηθεί με τον αλγόριθμο BLEU*, ο οποίος συγκρίνει μηχανικές και επαγγελματικές μεταφράσεις. Κλίμακα ποιότητας από 0 έως 100%.

Όσο καλύτερη είναι η νευρική μετάφραση, τόσο μεγαλύτερο είναι το ποσοστό. Σύμφωνα με αυτόν τον αλγόριθμο, το πρόγραμμα περιήγησης Yandex άρχισε να μεταφράζει 1,7 φορές καλύτερα.

ή η ποσότητα μετατρέπεται σε ποιότητα

Άρθρο βασισμένο στην ομιλία στο συνέδριο RIF + CIB 2017.

Μετάφραση Νευρωνικής Μηχανής: γιατί μόνο τώρα;

Μιλούν για νευρωνικά δίκτυα εδώ και πολύ καιρό και φαίνεται ότι ένα από τα κλασικά καθήκοντα της τεχνητής νοημοσύνης - η μηχανική μετάφραση - απλώς ζητά να λυθεί με βάση αυτήν την τεχνολογία.

Ωστόσο, εδώ είναι η δυναμική της δημοτικότητας στην αναζήτηση ερωτημάτων σχετικά με τα νευρωνικά δίκτυα γενικά και σχετικά με τη μετάφραση νευρωνικών μηχανών ειδικότερα:

Είναι απολύτως σαφές ότι μέχρι πρόσφατα δεν υπήρχε τίποτα σχετικά με τη νευρωνική μηχανική μετάφραση στο ραντάρ - και στο τέλος του 2016, αρκετές εταιρείες παρουσίασαν τις νέες τεχνολογίες και τα συστήματα μηχανικής μετάφρασης που βασίζονται σε νευρωνικά δίκτυα, συμπεριλαμβανομένων των Google, Microsoft και SYSTRAN. Εμφανίστηκαν σχεδόν ταυτόχρονα, με διαφορά αρκετών εβδομάδων ή και ημερών. Γιατί αυτό?

Για να απαντηθεί αυτό το ερώτημα, είναι απαραίτητο να κατανοήσουμε τι είναι η μηχανική μετάφραση που βασίζεται στα νευρωνικά δίκτυα και ποια είναι η βασική διαφορά της από τα κλασικά στατιστικά συστήματα ή αναλυτικά συστήματα που χρησιμοποιούνται σήμερα για μηχανική μετάφραση.

Ο νευρωνικός μεταφραστής βασίζεται στον μηχανισμό αμφίδρομων επαναλαμβανόμενων νευρωνικών δικτύων (Bidirectional Recurrent Neural Networks), που βασίζεται σε υπολογισμούς μήτρας, ο οποίος σας επιτρέπει να δημιουργήσετε σημαντικά πιο πολύπλοκα πιθανοτικά μοντέλα από τους μεταφραστές στατιστικών μηχανών.


Όπως η στατιστική μετάφραση, η νευρική μετάφραση απαιτεί παράλληλα σώματα για μάθηση, επιτρέποντάς σας να συγκρίνετε την αυτόματη μετάφραση με την αναφορά "άνθρωπος", μόνο στη διαδικασία εκμάθησης δεν λειτουργεί με μεμονωμένες φράσεις και φράσεις, αλλά με ολόκληρες προτάσεις. Το κύριο πρόβλημα είναι ότι απαιτείται πολύ περισσότερη υπολογιστική ισχύς για την εκπαίδευση ενός τέτοιου συστήματος.

Για να επιταχύνουν τη διαδικασία, οι προγραμματιστές χρησιμοποιούν GPU της NVIDIA και η Google χρησιμοποιεί επίσης τη Μονάδα Επεξεργασίας Tensor (TPU), ιδιόκτητα τσιπ προσαρμοσμένα ειδικά για τεχνολογίες μηχανικής εκμάθησης. Τα τσιπ γραφικών βελτιστοποιούνται αρχικά για αλγόριθμους υπολογισμού μήτρας και επομένως το κέρδος απόδοσης είναι 7-15 φορές σε σύγκριση με την CPU.

Ακόμη και με όλα αυτά, η εκπαίδευση ενός νευρικού μοντέλου απαιτεί 1 έως 3 εβδομάδες, ενώ ένα στατιστικό μοντέλο περίπου ίδιου μεγέθους συντονίζεται σε 1 έως 3 ημέρες και με την αύξηση του μεγέθους αυτή η διαφορά αυξάνεται.

Ωστόσο, όχι μόνο τα τεχνολογικά προβλήματα αποτέλεσαν τροχοπέδη για την ανάπτυξη των νευρωνικών δικτύων στο πλαίσιο του έργου της μηχανικής μετάφρασης. Τελικά, κατέστη δυνατή η εκπαίδευση γλωσσικών μοντέλων νωρίτερα, αν και πιο αργά, αλλά δεν υπήρχαν θεμελιώδη εμπόδια.

Η μόδα για τα νευρωνικά δίκτυα έπαιξε επίσης το ρόλο της. Πολλοί αναπτύχθηκαν μέσα τους, αλλά δεν βιάζονταν να το δηλώσουν, φοβούμενοι, ίσως, ότι δεν θα λάμβαναν την αύξηση της ποιότητας που περιμένει η κοινωνία από τη φράση Νευρωνικά Δίκτυα. Αυτό μπορεί να εξηγήσει το γεγονός ότι πολλοί νευρωνικοί μεταφραστές ανακοινώθηκαν ο ένας μετά τον άλλο ταυτόχρονα.

Ποιότητα μετάφρασης: ποιανού η βαθμολογία BLEU είναι παχύτερη;

Ας προσπαθήσουμε να καταλάβουμε αν η ανάπτυξη στην ποιότητα της μετάφρασης αντιστοιχεί στις συσσωρευμένες προσδοκίες και στην αύξηση του κόστους που συνοδεύει την ανάπτυξη και υποστήριξη των νευρωνικών δικτύων για μετάφραση.
Η Google στη μελέτη της δείχνει ότι η νευρωνική μηχανική μετάφραση δίνει Σχετική Βελτίωση από 58% έως 87%, ανάλογα με το ζεύγος γλώσσας, σε σύγκριση με την κλασική στατιστική προσέγγιση (ή Phrase Based Machine Translation, PBMT, όπως ονομάζεται επίσης).


Η SYSTRAN διεξάγει μια μελέτη στην οποία η ποιότητα μιας μετάφρασης αξιολογείται επιλέγοντας από διάφορες επιλογές που παρουσιάζονται από διαφορετικά συστήματα, καθώς και μια "ανθρώπινη" μετάφραση. Και ισχυρίζεται ότι η νευρωνική του μετάφραση προτιμάται στο 46% των περιπτώσεων από μια μετάφραση που γίνεται από άτομο.

Ποιότητα μετάφρασης: υπάρχει μια σημαντική ανακάλυψη;

Παρόλο που η Google ισχυρίζεται βελτίωση της τάξης του 60% ή περισσότερο, υπάρχει μια μικρή διαφορά σε αυτό το ποσοστό. Εκπρόσωποι της εταιρείας μιλούν για «Σχετική Βελτίωση», πόσο δηλαδή κατάφεραν με τη νευρωνική προσέγγιση να προσεγγίσουν την ποιότητα της Ανθρώπινης Μετάφρασης σε σχέση με αυτό που υπήρχε στον κλασικό στατιστικό μεταφραστή.


Οι ειδικοί του κλάδου που αναλύουν τα αποτελέσματα που παρουσιάζει η Google στο άρθρο "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation" είναι αρκετά επιφυλακτικοί ως προς τα αποτελέσματα που παρουσιάζονται και λένε ότι στην πραγματικότητα η βαθμολογία BLEU βελτιώθηκε μόνο κατά 10% και Σημαντική πρόοδος είναι αισθητή ακριβώς σε αρκετά απλά τεστ από τη Wikipedia, τα οποία, πιθανότατα, χρησιμοποιήθηκαν επίσης στη διαδικασία εκπαίδευσης του δικτύου.

Μέσα στο PROMT, συγκρίνουμε τακτικά τη μετάφραση σε διάφορα κείμενα των συστημάτων μας με ανταγωνιστές και, επομένως, υπάρχουν πάντα παραδείγματα στα οποία μπορούμε να ελέγξουμε αν η νευρωνική μετάφραση είναι πραγματικά τόσο ανώτερη από την προηγούμενη γενιά όσο ισχυρίζονται οι κατασκευαστές.

Αρχικό κείμενο (EN): Η ανησυχία δεν έκανε ποτέ κανέναν καλό.
Μετάφραση από το Google PBMT: Μην ανησυχείτε, μην κάνετε κανένα καλό.
Μετάφραση Google NMT: Η ανησυχία δεν βοήθησε ποτέ κανέναν.

Παρεμπιπτόντως, η μετάφραση της ίδιας φράσης στο Translate.Ru: "Ο ενθουσιασμός δεν έκανε ποτέ καλό σε κανέναν", μπορείτε να δείτε ότι ήταν και παρέμεινε η ίδια χωρίς τη χρήση νευρωνικών δικτύων.

Το Microsoft Translator δεν υστερεί επίσης σε αυτό το θέμα. Σε αντίθεση με τους συναδέλφους τους στην Google, έφτιαξαν ακόμη και έναν ιστότοπο όπου μπορείτε να μεταφράσετε και να συγκρίνετε δύο αποτελέσματα: νευρωνικό και προ-νευρωνικό, για να βεβαιωθείτε ότι οι ισχυρισμοί σχετικά με την ανάπτυξη δεν είναι αβάσιμοι.


Σε αυτό το παράδειγμα, βλέπουμε ότι υπάρχει πρόοδος, και είναι πραγματικά αισθητή. Εκ πρώτης όψεως, φαίνεται ότι η δήλωση των προγραμματιστών ότι η αυτόματη μετάφραση έχει σχεδόν προλάβει την «ανθρώπινη» μετάφραση είναι αληθινή. Είναι όμως αυτό πραγματικά αλήθεια και τι σημαίνει αυτό όσον αφορά την πρακτική εφαρμογή της τεχνολογίας για τις επιχειρήσεις;

Γενικά, η μετάφραση με χρήση νευρωνικών δικτύων είναι ανώτερη από τη στατιστική μετάφραση και αυτή η τεχνολογία έχει τεράστιες δυνατότητες ανάπτυξης. Αλλά αν προσεγγίσουμε προσεκτικά το ζήτημα, τότε μπορούμε να βεβαιωθούμε ότι η πρόοδος δεν είναι σε όλα και ότι δεν μπορούν να εφαρμοστούν όλες οι εργασίες σε νευρωνικά δίκτυα χωρίς να δούμε την ίδια την εργασία.

Μηχανική μετάφραση: ποιες είναι οι εργασίες

Από τον αυτόματο μεταφραστή ολόκληρη η ιστορία της ύπαρξής του - και αυτό είναι ήδη περισσότερα από 60 χρόνια! – περίμεναν κάποιο είδος μαγείας, παρουσιάζοντάς το ως γραφομηχανή από ταινίες επιστημονικής φαντασίας, που μεταφράζει αμέσως κάθε ομιλία σε εξωγήινο σφύριγμα και πίσω.

Στην πραγματικότητα, τα καθήκοντα είναι διαφορετικά επίπεδα, ένα από τα οποία υπονοεί μια «καθολική» ή, ας πούμε, «καθημερινή» μετάφραση για καθημερινές εργασίες και ευκολία κατανόησης. Οι διαδικτυακές υπηρεσίες μετάφρασης και πολλά προϊόντα για φορητές συσκευές κάνουν εξαιρετική δουλειά αυτού του επιπέδου.

Τέτοιες εργασίες περιλαμβάνουν:

Γρήγορη μετάφραση λέξεων και σύντομων κειμένων για διάφορους σκοπούς.
αυτόματη μετάφραση στη διαδικασία επικοινωνίας σε φόρουμ, σε κοινωνικά δίκτυα, αγγελιοφόροι?
αυτόματη μετάφραση κατά την ανάγνωση ειδήσεων, άρθρων της Wikipedia.
ταξιδιωτικός διερμηνέας (κινητό).

Όλα αυτά τα παραδείγματα βελτίωσης της ποιότητας της μετάφρασης με χρήση νευρωνικών δικτύων, τα οποία εξετάσαμε παραπάνω, σχετίζονται απλώς με αυτές τις εργασίες.

Ωστόσο, με τους στόχους και τους στόχους της επιχείρησης σε σχέση με την αυτόματη μετάφραση, τα πράγματα είναι κάπως διαφορετικά. Για παράδειγμα, ακολουθούν ορισμένες από τις απαιτήσεις που ισχύουν για τα εταιρικά συστήματα μηχανικής μετάφρασης:

Μετάφραση επιχειρηματικής αλληλογραφίας με πελάτες, συνεργάτες, επενδυτές, ξένους υπαλλήλους.
εντοπισμός τοποθεσιών, ηλεκτρονικά καταστήματα, περιγραφές προϊόντων, οδηγίες.
μετάφραση περιεχομένου χρήστη (κριτικές, φόρουμ, ιστολόγια)·
την ικανότητα ενσωμάτωσης της μετάφρασης σε επιχειρηματικές διαδικασίες και προϊόντα και υπηρεσίες λογισμικού·
ακρίβεια μετάφρασης σε συμμόρφωση με την ορολογία, εμπιστευτικότητα και ασφάλεια.

Ας προσπαθήσουμε να καταλάβουμε με παραδείγματα εάν οποιεσδήποτε εργασίες μιας μεταφραστικής επιχείρησης μπορούν να επιλυθούν χρησιμοποιώντας νευρωνικά δίκτυα και πώς.

Υπόθεση: Amadeus

Η Amadeus είναι ένα από τα μεγαλύτερα παγκόσμια συστήματα διανομής αεροπορικών εισιτηρίων στον κόσμο. Αφενός, οι αερομεταφορείς συνδέονται με αυτό, αφετέρου, οι εταιρείες που πρέπει να λαμβάνουν όλες τις πληροφορίες σχετικά με τις αλλαγές σε πραγματικό χρόνο και να αναφέρουν στους πελάτες τους.

Το καθήκον είναι ο εντοπισμός των συνθηκών για την εφαρμογή των τιμολογίων (Κανόνες ναύλων), που διαμορφώνονται αυτόματα στο σύστημα κρατήσεων από διάφορες πηγές. Αυτοί οι κανόνες διαμορφώνονται πάντα αγγλική γλώσσα. Η μη αυτόματη μετάφραση είναι πρακτικά αδύνατη εδώ, λόγω του ότι υπάρχουν πολλές πληροφορίες και αλλάζουν συχνά. Ένας πράκτορας αεροπορικών εισιτηρίων θα ήθελε να διαβάσει τους Κανόνες ναύλων στα ρωσικά προκειμένου να συμβουλεύσει αμέσως και με ικανοποίηση τους πελάτες του.

Απαιτείται μια κατανοητή μετάφραση που να αποδίδει το νόημα των κανόνων τιμολόγησης, λαμβάνοντας υπόψη τυπικούς όρους και συντμήσεις. Και απαιτεί αυτόματη μετάφραση για να ενσωματωθεί απευθείας στο σύστημα κρατήσεων Amadeus.

→ Το έργο και η υλοποίηση του έργου περιγράφονται αναλυτικά στο έγγραφο.

Ας προσπαθήσουμε να συγκρίνουμε τη μετάφραση που έγινε μέσω του PROMT Cloud API που είναι ενσωματωμένο στο Amadeus Fare Rules Translator και τη "νευρική" μετάφραση από την Google.

Πρωτότυπο: ΝΑΥΤΙΚΑ ΑΜΕΣΗΣ ΑΓΟΡΑ ΜΕ ΤΑΞΙΔΙ ΜΕ ΤΑΞΙΔΙ

PROMT (Analytic Approach): ΤΙΜΕΣ ΑΜΕΣΗΣ ΑΓΟΡΑΣ ΠΤΗΣΗΣ

GNMT: ΣΤΡΟΓΓΥΛΕΣ ΑΓΟΡΕΣ

Προφανώς, εδώ ο νευρωνικός μεταφραστής δεν μπορεί να αντεπεξέλθει, και λίγο πιο πέρα ​​θα γίνει σαφές γιατί.

Υπόθεση: TripAdvisor

Το TripAdvisor είναι μια από τις μεγαλύτερες ταξιδιωτικές υπηρεσίες στον κόσμο που δεν χρειάζεται συστάσεις. Σύμφωνα με άρθρο που δημοσίευσε η The Telegraph, καθημερινά στον ιστότοπο εμφανίζονται 165.600 νέες κριτικές διαφόρων τουριστικών τοποθεσιών σε διαφορετικές γλώσσες.

Ο στόχος είναι η μετάφραση τουριστικών κριτικών από τα αγγλικά στα ρωσικά με ποιότητα μετάφρασης επαρκή για την κατανόηση της έννοιας αυτής της κριτικής. Κύρια δυσκολία: τυπικά χαρακτηριστικά περιεχομένου που δημιουργείται από τον χρήστη (κείμενα με λάθη, τυπογραφικά λάθη, παραλείψεις).

Επίσης, μέρος της εργασίας ήταν η αυτόματη αξιολόγηση της ποιότητας της μετάφρασης πριν από τη δημοσίευση στον ιστότοπο του TripAdvisor. Εφόσον δεν είναι δυνατή η μη αυτόματη αξιολόγηση όλου του μεταφρασμένου περιεχομένου, μια λύση αυτόματης μετάφρασης θα πρέπει να παρέχει έναν αυτόματο μηχανισμό για την αξιολόγηση της ποιότητας των μεταφρασμένων κειμένων - βαθμολογία εμπιστοσύνης, ώστε να μπορεί το TripAdvisor να δημοσιεύει μόνο μεταφρασμένες κριτικές Υψηλή ποιότητα.

Για τη λύση, χρησιμοποιήθηκε η τεχνολογία PROMT DeepHybrid, η οποία καθιστά δυνατή την απόκτηση καλύτερης και πιο κατανοητής μετάφρασης για τον τελικό αναγνώστη, μεταξύ άλλων μέσω στατιστικής επεξεργασίας των αποτελεσμάτων της μετάφρασης.

Ας δούμε παραδείγματα:

Πρωτότυπο: Φάγαμε εκεί χθες το βράδυ από μια ιδιοτροπία και ήταν ένα υπέροχο γεύμα. Η υπηρεσία ήταν προσεκτική χωρίς να είναι υπερβολική.

PROMT (Υβριδική μετάφραση): Φάγαμε εκεί χθες το βράδυ τυχαία και ήταν ένα υπέροχο γεύμα. Το προσωπικό ήταν προσεκτικό αλλά όχι υπερβολικό.

GNMT: Φάγαμε εκεί χθες το βράδυ από μια ιδιοτροπία και ήταν ένα υπέροχο γεύμα. Η εξυπηρέτηση ήταν προσεκτική χωρίς να είναι υπερβολική.

Εδώ, όλα δεν είναι τόσο καταθλιπτικά όσον αφορά την ποιότητα όσο στο προηγούμενο παράδειγμα. Και γενικά, σύμφωνα με τις παραμέτρους του, αυτό το πρόβλημα μπορεί ενδεχομένως να λυθεί χρησιμοποιώντας νευρωνικά δίκτυα και αυτό μπορεί να βελτιώσει περαιτέρω την ποιότητα της μετάφρασης.

Προκλήσεις στη χρήση του NMT για επιχειρήσεις

Όπως αναφέρθηκε προηγουμένως, ένας "καθολικός" μεταφραστής δεν παρέχει πάντα αποδεκτή ποιότητα και δεν μπορεί να υποστηρίξει συγκεκριμένη ορολογία. Για να ενσωματωθείτε στις διαδικασίες σας και να εφαρμόσετε νευρωνικά δίκτυα για μετάφραση, πρέπει να πληροίτε τις βασικές απαιτήσεις:

Η παρουσία επαρκών όγκων παράλληλων κειμένων ώστε να είναι δυνατή η εκπαίδευση ενός νευρωνικού δικτύου. Συχνά, ο πελάτης έχει απλώς λίγα από αυτά, ή ακόμα και κείμενα για αυτό το θέμα δεν υπάρχουν στη φύση. Μπορεί να ταξινομούνται ή να βρίσκονται σε κατάσταση όχι πολύ κατάλληλη για αυτόματη επεξεργασία.

Για να δημιουργήσετε ένα μοντέλο, χρειάζεστε μια βάση δεδομένων που περιέχει τουλάχιστον 100 εκατομμύρια διακριτικά (χρήση λέξης) και για να λάβετε μια μετάφραση περισσότερο ή λιγότερο αποδεκτής ποιότητας - 500 εκατομμύρια μάρκες. Δεν έχει κάθε εταιρεία τέτοιο όγκο υλικών.

Η παρουσία μηχανισμού ή αλγορίθμων αυτόματης αξιολόγησης της ποιότητας του αποτελέσματος.

Επαρκής υπολογιστική ισχύς.
Ένας "καθολικός" νευρωνικός μεταφραστής τις περισσότερες φορές δεν είναι κατάλληλος από άποψη ποιότητας και για να αναπτύξετε το δικό σας ιδιωτικό νευρωνικό δίκτυο που μπορεί να παρέχει αποδεκτή ποιότητα και ταχύτητα εργασίας, χρειάζεστε ένα "μικρό σύννεφο".

Δεν είναι ξεκάθαρο τι να κάνετε με το απόρρητο.
Δεν είναι κάθε πελάτης έτοιμος να δώσει το περιεχόμενό του για μετάφραση στο cloud για λόγους ασφαλείας και το NMT είναι πρώτα απ' όλα μια ιστορία cloud.

ευρήματα

Γενικά, η νευρωνική αυτόματη μετάφραση δίνει ένα αποτέλεσμα υψηλότερης ποιότητας από μια «καθαρά» στατιστική προσέγγιση.
Αυτόματη μετάφραση μέσω νευρωνικού δικτύου - πιο κατάλληλη για την επίλυση του προβλήματος της "καθολικής μετάφρασης".
Καμία από τις προσεγγίσεις της ΜΤ από μόνη της δεν είναι ιδανικό καθολικό εργαλείο για την επίλυση οποιουδήποτε μεταφραστικού προβλήματος.
Για εργασίες επαγγελματικής μετάφρασης, μόνο εξειδικευμένες λύσεις μπορούν να διασφαλίσουν ότι πληρούνται όλες οι απαιτήσεις.

Καταλήγουμε σε μια απολύτως προφανή και λογική απόφαση ότι για τις μεταφραστικές μας εργασίες πρέπει να χρησιμοποιήσετε τον μεταφραστή που είναι πιο κατάλληλος για αυτό. Δεν έχει σημασία αν είναι μέσα νευρικό σύστημαή όχι. Η κατανόηση του ίδιου του προβλήματος είναι πιο σημαντική.

Ετικέτες: Προσθήκη ετικετών

Αυτή η σημείωση είναι ένας μεγάλος σχολιασμός των ειδήσεων σχετικά με τη Μετάφραση Google που συνδέει τη μετάφραση ρωσικών με τη βαθιά εκμάθηση. Με την πρώτη ματιά, ακούγεται και φαίνεται πολύ ωραίο. Ωστόσο, θα εξηγήσω γιατί δεν πρέπει να βιαστείτε να βγάλετε συμπεράσματα σχετικά με το «δεν χρειάζονται πλέον μεταφραστές».


Το κόλπο είναι ότι σήμερα η τεχνολογία μπορεί να αντικαταστήσει ... αλλά δεν μπορεί να αντικαταστήσει κανέναν.
Μεταφραστής δεν είναι κάποιος που γνωρίζει μια ξένη γλώσσα, όπως ο φωτογράφος δεν είναι κάποιος που έχει αγοράσει μια μεγάλη μαύρη SLR. Αυτή είναι μια απαραίτητη προϋπόθεση, αλλά κάθε άλλο παρά επαρκής.

Μεταφραστής είναι κάποιος που γνωρίζει τέλεια τη γλώσσα του, καταλαβαίνει καλά κάποιου άλλου και μπορεί να μεταφέρει με ακρίβεια αποχρώσεις νοήματος.

Και οι τρεις προϋποθέσεις είναι σημαντικές.

Μέχρι στιγμής δεν βλέπουμε καν το πρώτο μέρος (όσον αφορά το «γνωρίζει τη γλώσσα του»). Λοιπόν, τουλάχιστον για τους Ρώσους, μέχρι στιγμής όλα είναι πολύ, πολύ άσχημα. Αυτό είναι κάτι και η τοποθέτηση κόμματος είναι τέλεια αλγόριθμος (η Word το έκανε έτσι το 1994, αδειοδοτώντας τον αλγόριθμο από τους ντόπιους) και για το νευρωνικό δίκτυο του υπάρχοντος σώματος κειμένων του ΟΗΕ, είναι ακριβώς πάνω από την οροφή.

Για όσους δεν γνωρίζουν, όλα τα επίσημα έγγραφα του ΟΗΕ εκδίδονται στις πέντε γλώσσες των μόνιμων μελών του Συμβουλίου Ασφαλείας, συμπεριλαμβανομένων των ρωσικών, και αυτή είναι η μεγαλύτερη βάση δεδομένων πολύ υψηλής ποιότητας μεταφράσεων των ίδιων κειμένων για αυτά τα πέντε Γλώσσες. Σε αντίθεση με τις μεταφράσεις έργων τέχνης, όπου «ο μεταφραστής Ostap μπορεί να υποφέρει», η βάση του ΟΗΕ διακρίνεται από την πιο ακριβή μετάδοση των πιο λεπτών αποχρώσεων του νοήματος και την ιδανική συμμόρφωση με τους λογοτεχνικούς κανόνες.

Αυτό το γεγονός, συν την απόλυτη ελευθερία, το καθιστά ιδανικό σύνολο κειμένων (corpus) για την εκπαίδευση τεχνητών μεταφραστών, αν και καλύπτει μόνο ένα καθαρά επίσημο-γραφειοκρατικό υποσύνολο γλωσσών.


Ας επιστρέψουμε στους μεταφραστές των προβάτων μας. Σύμφωνα με το νόμο Pareto, το 80% των επαγγελματιών μεταφραστών είναι κακοί. Πρόκειται για άτομα που έχουν ολοκληρώσει μαθήματα ξένων γλωσσών ή, στην καλύτερη περίπτωση, κάποιο περιφερειακό παιδαγωγικό ίδρυμα με πτυχίο «καθηγητή ξένων γλωσσών δημοτικών τάξεων για αγροτικές περιοχές». Δεν έχουν άλλες γνώσεις. Διαφορετικά, δεν θα κάθονταν σε μια από τις χαμηλότερα αμειβόμενες δουλειές.

Ξέρεις τι κερδίζουν; Όχι, όχι σε μεταφράσεις. Κατά κανόνα, οι πελάτες αυτών των μεταφράσεων κατανοούν το κείμενο ξένη γλώσσακαλύτερος μεταφραστής.

Κάθονται στις απαιτήσεις του νόμου ή/και των τοπικών εθίμων.

Λοιπόν, υποτίθεται ότι έχουμε τις οδηγίες για το προϊόν στα ρωσικά. Επομένως, ο εισαγωγέας βρίσκει ένα άτομο που γνωρίζει λίγο την «εισαγόμενη» γλώσσα και μεταφράζει αυτήν την οδηγία. Αυτό το άτομο δεν γνωρίζει το προϊόν, δεν έχει καμία γνώση σε αυτόν τον τομέα, είχε "τρία με μείον" στα ρωσικά, αλλά μεταφράζει. Το αποτέλεσμα είναι γνωστό σε όλους.

Ακόμα χειρότερα, αν μεταφράσει «στην αντίθετη κατεύθυνση», δηλ. σε μια ξένη γλώσσα (γεια στους Κινέζους). Τότε το έργο του με μεγάλη πιθανότητα πέφτει στα «μπανίσματα» του Exler ή του τοπικού τους αντίστοιχου.

Ή εδώ είναι μια πιο δύσκολη περίπτωση για εσάς. Κατά την επικοινωνία με το κράτος Οι αρχές με ξένα έγγραφα πρέπει να υποβάλουν μετάφραση αυτών των εγγράφων. Επιπλέον, η μετάφραση δεν πρέπει να είναι από τον θείο Βάσια, αλλά από ένα νομικά σεβαστό γραφείο, με «υγρές» σφραγίδες κ.λπ. Λοιπόν, πες μου, πόσο δύσκολο είναι να «μεταφράσεις» μια άδεια οδήγησης ή υπάρχει πιστοποιητικό γέννησης; Όλα τα πεδία είναι τυποποιημένα και αριθμημένα. Ο «μεταφραστής» χρειάζεται, στη χειρότερη περίπτωση, απλώς να μεταγράφει τα σωστά ονόματα από το ένα αλφάβητο στο άλλο. Αλλά όχι, ο «θείος Βάσια» ξεκουράζεται και, τις περισσότερες φορές, χάρη ούτε καν στον νόμο, αλλά απλώς στις εσωτερικές οδηγίες των τοπικών γραφειοκρατικών αφεντικών.

Σημειώστε ότι το 80% των μεταφραστικών γραφείων ζουν με συμβολαιογράφους. Μαντέψτε τρεις φορές γιατί;

Πώς θα επηρεαστούν αυτοί οι μεταφραστές από την εμφάνιση καλής αυτόματης μετάφρασης; Με τιποτα. Λοιπόν, δηλ. υπάρχει ελπίδα ότι η ποιότητα των μεταφράσεων τους θα βελτιωθεί ακόμα σε ορισμένες μικρές πτυχές, όπου υπάρχει κάτι να μεταφραστεί. Λοιπόν, αυτό είναι όλο. Οι ώρες εργασίας εδώ δεν θα μειωθούν σημαντικά, επειδή εξακολουθούν να αντιγράφουν κείμενο από στήλη σε στήλη τις περισσότερες φορές. «Υπάρχουν τόσες πολλές πρωτεΐνες σε αυτό το τυρί, τόσοι πολλοί υδατάνθρακες…» Εθνικές μορφές διαφορετικές χώρεςδιαφορετικά, οπότε θα υπάρχει λιγότερη δουλειά για αυτούς. Ειδικά αν δεν καταβάλεις προσπάθεια.

Ενδιάμεσο συμπέρασμα: τίποτα δεν θα αλλάξει για το κάτω 80%. Κερδίζουν ήδη όχι επειδή είναι μεταφραστές, αλλά επειδή είναι γραφειοκράτες του κατώτερου επιπέδου.

Τώρα ας δούμε το αντίθετο μέρος του φάσματος, ας είναι το κορυφαίο 3%.

Πιο υπεύθυνος, αν και όχι το πιο δύσκολο τεχνικά 1%: Ταυτόχρονη μετάφραση πολύ σημαντικόδιαπραγματεύσεις. Συνήθως μεταξύ μεγάλων εταιρειών, αλλά στο όριο - στον ΟΗΕ ή παρόμοιες κορυφές. Το λάθος ενός μεταφραστή όταν δεν μεταφέρει καν νόημα - συναισθήματα, μπορεί να οδηγήσει, στη χειρότερη περίπτωση, σε ατομικό πόλεμο. Ταυτόχρονα, όπως καταλαβαίνετε, ο συναισθηματικός χρωματισμός ακόμη και κυριολεκτικά που συμπίπτουν φράσεις σε διαφορετικές γλώσσες μπορεί να είναι πολύ διαφορετικός. Εκείνοι. ο μεταφραστής πρέπει να έχει ιδανική γνώση και των δύο πολιτισμικών πλαισίων των γλωσσών εργασίας του. Κοινό παράδειγμα είναι οι λέξεις «νέγρος» και «ανάπηρος». Είναι σχεδόν ουδέτερα στα ρωσικά και έχουν έντονα συναισθηματικά χρώματα, ακόμη και άσεμνα, στα σύγχρονα αγγλικά.

Τέτοιοι μεταφραστές μπορεί να μην φοβούνται την τεχνητή νοημοσύνη: κανείς δεν θα εμπιστευτεί ποτέ αυτήν την ευθύνη σε μια μηχανή.

Το επόμενο 1% είναι μεταφραστές λογοτεχνίας. Λοιπόν, για παράδειγμα, έχω ένα ολόκληρο ράφι αφιερωμένο στις προσεκτικά συλλεγμένες πρωτότυπες αγγλικές εκδόσεις των Conan Doyle, Lewis Carroll, Hugh Laurie - στο πρωτότυπο, χωρίς καμία προσαρμογή και τις τοπικές ανατυπώσεις μας. Η ανάγνωση αυτών των βιβλίων είναι υπέροχη λεξιλόγιο, ξέρετε, καλά, εκτός από μεγάλη αισθητική απόλαυση. Εγώ, πιστοποιημένος μεταφραστής, μπορώ να επαναλάβω οποιαδήποτε πρόταση από αυτά τα βιβλία πολύ κοντά στο κείμενο. Αλλά να αναλάβει τη μετάφραση; Δυστυχώς όχι.

Δεν τραυλίζω καν για μεταφράσεις ποίησης.

Τέλος, το πιο δύσκολο τεχνικά (για νευρωνικό δίκτυο - γενικά αδύνατο) 1% είναι η επιστημονική και τεχνική μετάφραση. Συνήθως, αν κάποια ομάδα σε κάποια χώρα έχει αναλάβει την ηγεσία στον τομέα της, ονομάζει τις ανακαλύψεις και τις εφευρέσεις της στη δική της γλώσσα. Μπορεί να αποδειχθεί ότι σε άλλη χώρα άλλη ομάδα εφεύρε/ανακάλυψε ανεξάρτητα το ίδιο πράγμα. Έτσι εμφανίστηκαν, για παράδειγμα, οι νόμοι των Boyle-Mariotte, Mendeleev-Poisson και διαφωνίες σχετικά με το θέμα των Popov / Marconi, Mozhaisky / των αδελφών Wright / Santos-Dumont.

Αλλά αν μια ξένη ομάδα «καλπάσει τελείως» προς τα εμπρός, οι επιστήμονες που «πιάνουν τη διαφορά» έχουν δύο επιλογές με τη γλωσσική έννοια: να εντοπίσουν ή να μεταφράσουν.

Η ανίχνευση των ονομάτων των νέων τεχνολογιών είναι, φυσικά, ευκολότερη. Έτσι εμφανίστηκαν στα ρωσικά άλγεβρα, το φάρμακοκαι ένας υπολογιστής, στα γαλλικά - μπιστρό, ημερομηνίακαι βότκα; Στα Αγγλικά - σπούτνικ, τοκαμάκκαι περεστρόικα.

Αλλά μερικές φορές εξακολουθούν να μεταφράζουν. Η φωνή του ουμανιστή στο κεφάλι μου ορμά άγρια ​​από τον όρο κελί αφήςγια να δηλώσετε το όρισμα του μετασχηματισμού Fourier από τον μετασχηματισμό Fourier, ως μετάφραση για ερώτηση. Πέρα από την πλάκα, δεν υπάρχουν τέτοιοι όροι στο Google - αλλά έχω ένα εγχειρίδιο σε χαρτί για την επεξεργασία ψηφιακού σήματος, εγκεκριμένο και καθιερωμένο από το Υπουργείο Παιδείας, στο οποίο περιλαμβάνονται αυτοί οι όροι.

Και ναι, η ανάλυση οθόνης αφής είναι ο μόνος (γνωστός σε μένα) τρόπος διάκρισης ανδρική φωνήαπό θηλυκό. Επιλογές;

Αυτό που καταλαβαίνω είναι ότι αυτοί οι άνθρωποι δεν έχουν τίποτα να φοβηθούν, γιατί οι ίδιοι σχηματίζουν τη γλώσσα, εισάγουν νέες λέξεις και όρους σε αυτήν. Τα νευρωνικά δίκτυα απλώς μαθαίνουν από τις αποφάσεις τους. Λοιπόν, χωρίς να ξεχνάμε το γεγονός ότι αυτοί οι επιστήμονες και οι μηχανικοί δεν κερδίζουν χρήματα από τις μεταφράσεις.

Και, τέλος, η «μεσαία τάξη», καλή επαγγελματίες μεταφραστέςαλλά όχι κορυφές. Από τη μια πλευρά, εξακολουθούν να προστατεύονται από τη γραφειοκρατία - μεταφράζουν, για παράδειγμα, οδηγίες, αλλά όχι για ομοιοπαθητικά συμπληρώματα διατροφής, αλλά, για παράδειγμα, για κανονικά φάρμακα ή μηχανήματα εκεί. Από την άλλη πλευρά, αυτοί είναι ήδη σήμερα σύγχρονοι εργάτες με εξαιρετικά αυτοματοποιημένη εργασία. Το έργο τους ήδη τώρα ξεκινά με τη σύνταξη ενός «λεξικού» όρων έτσι ώστε η μετάφραση να είναι ομοιόμορφη και στη συνέχεια, στην πραγματικότητα, συνίσταται στην επεξεργασία του κειμένου σε εξειδικευμένο λογισμικό όπως το trados. Τα νευρωνικά δίκτυα θα μειώσουν τον αριθμό των απαραίτητων επεξεργασιών και θα αυξήσουν την παραγωγικότητα της εργασίας, αλλά δεν θα αλλάξουν ουσιαστικά τίποτα.

Συνοψίζοντας, οι φήμες για τον επικείμενο θάνατο του επαγγέλματος του απλού μεταφραστή είναι λίγο υπερβολικές. Σε όλα τα επίπεδα, η δουλειά θα επιταχυνθεί λίγο και ο ανταγωνισμός θα αυξηθεί λίγο, αλλά τίποτα ασυνήθιστο.

Αλλά ποιος θα το πάρει - είναι οι μεταφραστές-δημοσιογράφοι. Ακόμη και πριν από 10 χρόνια, μπορούσαν άνετα να παραπέμπουν σε ένα αγγλόφωνο άρθρο από το οποίο δεν καταλάβαιναν τίποτα και να γράφουν εντελώς ανοησίες. Σήμερα προσπαθούν κι αυτοί, αλλά οι αγγλόφωνοι αναγνώστες τα βουτάνε ξανά και ξανά στο... καλά, καταλαβαίνεις.

Με λίγα λόγια, η ώρα τους πέρασε. Με μια καθολική μηχανή μεταφραστή μεσαίου επιπέδου, αν και λίγο αδέξια, «δημοσιογράφους» όπως