News (EL)

Το νέο AI της DeepSeek μετατρέπει το κείμενο σε εικόνα και επιτυγχάνει συμπίεση δεδομένων με ακρίβεια 97%

DeepSeek
DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

Η κινεζική εταιρεία τεχνολογίας DeepSeek ανακοίνωσε μια σημαντική καινοτομία στον τομέα της τεχνητής νοημοσύνης με την κυκλοφορία του DeepSeek-OCR, ενός μοντέλου που έχει σχεδιαστεί για να ξεπεράσει ένα από τα μεγαλύτερα εμπόδια των μεγάλων γλωσσικών μοντέλων (LLM): τον περιορισμό του παραθύρου περιβάλλοντος. Η νέα προσέγγιση μετατρέπει το κείμενο σε οπτική αναπαράσταση, επιτρέποντας έως και δέκα φορές μεγαλύτερη συμπίεση δεδομένων χωρίς ουσιαστική απώλεια πληροφοριών.

Αυτή η τεχνική επιτρέπει στα συστήματα τεχνητής νοημοσύνης να επεξεργάζονται τεράστιους όγκους εγγράφων πιο γρήγορα και οικονομικά, διατηρώντας παράλληλα ακρίβεια 97% στην ανάκτηση αρχικού περιεχομένου. Η ανάπτυξη, που περιγράφεται λεπτομερώς σε ένα τεχνικό άρθρο, ανταποκρίνεται άμεσα στην αυξανόμενη ζήτηση για επεξεργασία δεδομένων μεγάλης κλίμακας χωρίς την επακόλουθη αύξηση του υπολογιστικού κόστους.

Το βασικό πρόβλημα που στοχεύει να λύσει το DeepSeek-OCR είναι η πεπερασμένη ικανότητα των LLM να «θυμούνται» ή να επεξεργάζονται πληροφορίες σε μία μόνο αλληλεπίδραση. Μετατρέποντας το κείμενο σε συμπαγείς εικόνες, η τεχνολογία παρακάμπτει την ανάγκη επεξεργασίας μεγάλων ακολουθιών διακριτικών κειμένου, που αποτελούν τη βασική μονάδα πληροφοριών για αυτά τα μοντέλα, βελτιστοποιώντας τη χρήση των πόρων και ανοίγοντας νέες δυνατότητες για την ανάλυση πολύπλοκων εγγράφων.

Inteligência Artificial
Ευφυΐα Artificial – Foto: Owlie Productions/ Shutterstock.com

Η καινοτομία πίσω από την οπτική συμπίεση

Το DeepSeek-OCR λειτουργεί με μια διαδικασία δύο σταδίων που αλλάζει ριζικά τον τρόπο χειρισμού των πληροφοριών κειμένου από τα συστήματα AI. Primeiramente, το μοντέλο λαμβάνει το κείμενο εισαγωγής και το μετατρέπει εσωτερικά σε δισδιάστατες εικόνες, σαν να «εκτύπωνε» το περιεχόμενο σε ψηφιακή οθόνη. Στη συνέχεια, εξειδικευμένοι οπτικοί κωδικοποιητές αναλύουν αυτές τις εικόνες και τις συμπιέζουν σε πολύ μικρότερο αριθμό οπτικών διακριτικών. Η στρατηγική Essa είναι θεμελιώδης για την αποτελεσματικότητα του συστήματος, καθώς μειώνει δραστικά το υπολογιστικό φορτίο που απαιτείται για την επεξεργασία. Σύγκριση Para, ανταγωνιστικά μοντέλα όπως το GOT-OCR2.0 απαιτούν περίπου 256 διακριτικά για την επεξεργασία μιας σελίδας, ενώ το DeepSeek-OCR εκτελεί την ίδια εργασία με μόλις 100 οπτικά διακριτικά, που αντιπροσωπεύουν βελτιστοποίηση άνω του 60%.

Μία από τις πιο εξελιγμένες πτυχές αυτής της τεχνολογίας είναι η εφαρμογή ενός συστήματος μεταβλητής συμπίεσης που μιμείται τη λειτουργία της ανθρώπινης μνήμης. Το μοντέλο εκχωρεί μεγαλύτερη ανάλυση και, κατά συνέπεια, περισσότερα διακριτικά στα πιο πρόσφατα και σχετικά περιβάλλοντα, ενώ παλαιότερες ή λιγότερο σημαντικές πληροφορίες αποθηκεύονται με λιγότερες λεπτομέρειες και χρησιμοποιώντας λιγότερα διακριτικά. Essa Η δυναμική κατανομή πόρων διασφαλίζει ότι η ακρίβεια διατηρείται εκεί που χρειάζεται περισσότερο, ενώ βελτιστοποιεί τη μακροπρόθεσμη αποθήκευση. Η ικανότητα του μοντέλου να χειρίζεται περίπου 100 διαφορετικές γλώσσες και να επεξεργάζεται μη κειμενικά στοιχεία, όπως γραφήματα, σύνθετους πίνακες και χημικούς τύπους, επεκτείνει περαιτέρω την εφαρμογή του σε σενάρια πραγματικού κόσμου, καθιστώντας το ένα ευέλικτο εργαλείο για την ψηφιοποίηση και την ανάλυση της γνώσης σε παγκόσμια κλίμακα.

[[MVG_PROTECTED_BLOCK_0]

Αποτελεσματικότητα και απόδοση σε αριθμούς

Η υπεροχή του DeepSeek-OCR έχει επικυρωθεί σε αυστηρές δοκιμές αναφοράς όπως το OmniDocBench, όπου ξεπέρασε σημαντικά τα μοντέλα τελευταίας τεχνολογίας. Ένα αξιοσημείωτο παράδειγμα είναι η σύγκριση με το MinerU, το οποίο καταναλώνει περισσότερα από 6 χιλιάδες tokens για να αναλύσει μια μεμονωμένη σελίδα εγγράφου. Αντίθετα, το μοντέλο DeepSeek εκτελεί την ίδια εργασία χρησιμοποιώντας λιγότερα από 800 tokens, κάτι που αντιπροσωπεύει σχεδόν 90% μείωση στην κατανάλωση πόρων. Mesmo όταν ο ρυθμός συμπίεσης αυξάνεται σε 20 φορές, με αποτέλεσμα πτώση της ακρίβειας κατά 60%, η τεχνολογία εξακολουθεί να αποδεικνύεται βιώσιμη για εφαρμογές που απαιτούν την ανάλυση εξαιρετικά μεγάλων πλαισίων, όπου η επισκόπηση είναι πιο σημαντική από τις μικρές λεπτομέρειες. Η απόδοση Essa όχι μόνο επιταχύνει την επεξεργασία, αλλά δημιουργεί και εξοικονόμηση λειτουργικών δαπανών, που μπορεί να φτάσει το 90%, σύμφωνα με τις αναλύσεις παραγωγής. Η ευελιξία του μοντέλου είναι ένα άλλο δυνατό σημείο, που δείχνει την ικανότητά του να επεξεργάζεται έγγραφα με ακανόνιστες διατάξεις, όπως οικονομικές αναφορές, τιμολόγια, ακόμη και χειρόγραφες σημειώσεις, καθώς και να δημιουργεί υψηλής ποιότητας συνθετικά δεδομένα για εκπαίδευση άλλων LLM, επεκτείνοντας τα διαθέσιμα σύνολα δεδομένων. Η συμβατότητα με διαφορετικές αναλύσεις, που κυμαίνονται από 64 έως 400 διακριτικά ανά εικόνα, εξασφαλίζει ευελιξία για διαφορετικές ανάγκες εφαρμογών.

Επιπτώσεις στην κοινότητα της τεχνητής νοημοσύνης

Η κυκλοφορία του DeepSeek-OCR προκάλεσε άμεσες και θετικές αντιδράσεις από εξέχουσες προσωπικότητες στην κοινότητα της AI. Ο Andrej Karpathy, συνιδρυτής του OpenAI και μία από τις πιο σεβαστές φωνές στον τομέα, επαίνεσε δημόσια την έρευνα.

[[MVG_PROTECTED_BLOCK_0]

Στην ανάλυσή του, ο Karpathy έθεσε το θεμελιώδες ερώτημα εάν τα εικονοστοιχεία θα μπορούσαν να γίνουν πιο αποτελεσματικό εργαλείο εισαγωγής από τα διακριτικά κειμένου για LLM, προτείνοντας τη δυνατότητα απόδοσης όλου του κειμένου ως εικόνα για τη βελτιστοποίηση της επεξεργασίας.

Η ανάρτηση πυροδότησε μια έντονη συζήτηση μεταξύ προγραμματιστών και ερευνητών σε εξειδικευμένα φόρουμ σχετικά με τη σκοπιμότητα επέκτασης αυτής της τεχνικής για την πλήρη εκπαίδευση μοντέλων γλώσσας, τονίζοντας τα πιθανά οφέλη όσον αφορά τη χρήση της μνήμης και την ταχύτητα.

Ο ενθουσιασμός από την κοινότητα ανοιχτού κώδικα ήταν εμφανής, με το έργο στο GitHub να συγκεντρώνει πάνω από 4.000 αστέρια μέσα σε μόλις 24 ώρες από την ανακοίνωση, σηματοδοτώντας ένα έντονο ενδιαφέρον για πειραματισμό και προσαρμογή της τεχνολογίας.

Πρακτικές εφαρμογές και επιχειρηματικός αντίκτυπος

Οι επιπτώσεις του DeepSeek-OCR για το επιχειρηματικό περιβάλλον είναι τεράστιες και μεταμορφωτικές. Με αυτήν την τεχνολογία, οι εταιρείες μπορούν να ξεπεράσουν τους περιορισμούς των κατακερματισμένων μηνυμάτων επιτρέποντάς τους να φορτώσουν ολόκληρες βάσεις γνώσης, όπως τεχνική τεκμηρίωση, εγχειρίδια προϊόντων ή αποθετήρια πηγαίου κώδικα, σε μια ενιαία αλληλεπίδραση AI.

Αυτό εξαλείφει την ανάγκη για διαδοχικές αναζητήσεις και επιτρέπει μια πιο ολιστική και συμφραζόμενη ανάλυση. Ο Jeffrey Emanuel, πρώην ποσοτικός επενδυτής, τόνισε τη δυνατότητα της τεχνολογίας να δημιουργεί γρήγορα κρυφές μνήμες που περιέχουν εκατομμύρια διακριτικά, γεγονός που θα μείωνε δραστικά τον λανθάνοντα χρόνο για περίπλοκα εταιρικά ερωτήματα, επιταχύνοντας τις αναλύσεις που προηγουμένως απαιτούσαν εβδομάδες χειρωνακτικής εργασίας.

Ο τεχνικός μηχανισμός του DeepEncoder

Η αρχιτεκτονική πίσω από την αποτελεσματικότητα του DeepSeek-OCR επικεντρώνεται στο στοιχείο DeepEncoder. Η μηχανική λογισμικού Essa ενσωματώνει προηγμένα μοντέλα για την εκτέλεση συγκεκριμένων εργασιών με εξαιρετικά βελτιστοποιημένο τρόπο.

Αρχικά, μοντέλα όπως το Segment Anything Model (SAM) χρησιμοποιούνται για την ακριβή τμηματοποίηση της διάταξης και των στοιχείων εικόνας του εγγράφου.

Ταυτόχρονα, το μοντέλο CLIP (Contrastive Language–Image Pre-training) εγγυάται την κατανόηση του παγκόσμιου περιβάλλοντος της σελίδας.

Μετά από αυτήν την αρχική ανάλυση, τίθεται σε λειτουργία ένας συμπιεστής, μειώνοντας τον αριθμό των κουπονιών που παράγονται έως και 16 φορές, γεγονός που εγγυάται την αποτελεσματικότητα του συστήματος και μειώνει το φορτίο δεδομένων που πρόκειται να επεξεργαστούν στα ακόλουθα βήματα.

Τεχνικές προκλήσεις και το μέλλον της τεχνολογίας

Παρά την αξιοσημείωτη απόδοσή του στην αποθήκευση και την ανακατασκευή δεδομένων, το DeepSeek-OCR εξακολουθεί να αντιμετωπίζει περιορισμούς. Atualmente, η τεχνολογία εστιάζει περισσότερο στην πιστή ανάκτηση πληροφοριών παρά στην προηγμένη συλλογιστική σχετικά με το οπτικά συμπιεσμένο περιεχόμενο.

Πρακτικές προκλήσεις όπως οι παραλλαγές στην ανάλυση, το χρώμα και την ποιότητα σάρωσης σε έγγραφα του πραγματικού κόσμου μπορούν να επηρεάσουν την ακρίβεια και να απαιτήσουν περαιτέρω έρευνα για να ξεπεραστούν πλήρως. Τα επόμενα βήματα της έρευνας περιλαμβάνουν παρεμβαλλόμενη προεκπαίδευση ψηφιακού και οπτικού κειμένου, με στόχο τη βελτίωση της ικανότητας του μοντέλου να κατανοεί εγγενώς και τις δύο μορφές.

Πολυγλωσσική υποστήριξη και ευελιξία

Ένας από τους ανταγωνιστικούς παράγοντες διαφοροποίησης του DeepSeek-OCR είναι οι ευρείες γλωσσικές του δυνατότητες, που προσφέρουν υποστήριξη για περίπου 100 γλώσσες. Το Isso το καθιστά ένα παγκόσμιο εργαλείο, ικανό να εξυπηρετεί διεθνείς οργανισμούς και πολυεθνικά ερευνητικά έργα. Το μοντέλο εκπαιδεύτηκε σε ένα τεράστιο σύνολο δεδομένων, που περιέχει 30 εκατομμύρια σελίδες στα κινέζικα και τα αγγλικά, διασφαλίζοντας στιβαρότητα και ακρίβεια στις πιο χρησιμοποιούμενες γλώσσες στον κόσμο των επιχειρήσεων και της επιστήμης.

To Top