News (MR)

एआय टेक्स्ट-टू-इमेज कॉम्प्रेशन नवीन डीपसीक तंत्रज्ञानासह 97% अचूकता प्राप्त करते

DeepSeek
DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

चीनी तंत्रज्ञान कंपनी DeepSeek ने DeepSeek-OCR च्या प्रकाशनासह कृत्रिम बुद्धिमत्तेच्या क्षेत्रात एक महत्त्वपूर्ण नवकल्पना जाहीर केली, हे मॉडेल मोठ्या भाषेच्या मॉडेल (LLMs) च्या सर्वात मोठ्या अडथळ्यांपैकी एकावर मात करण्यासाठी डिझाइन केलेले मॉडेल: संदर्भ विंडो मर्यादा. नवीन दृष्टीकोन मजकूराचे व्हिज्युअल प्रेझेंटेशनमध्ये रूपांतरित करते, माहितीचे महत्त्वपूर्ण नुकसान न करता दहा पट डेटा कॉम्प्रेशन करण्यास अनुमती देते. हे तंत्र AI प्रणालींना मूळ सामग्री पुनर्प्राप्त करण्यासाठी 97% अचूकता दर राखून, दस्तऐवजांच्या मोठ्या प्रमाणावरील अधिक जलद आणि किफायतशीरपणे प्रक्रिया करण्यास सक्षम करते. 20 ऑक्टोबर 2025 रोजी तांत्रिक प्रकाशनात तपशीलवार वर्णन केलेला हा विकास, परिणामी संगणकीय खर्चात वाढ न करता मोठ्या प्रमाणात डेटा प्रक्रियेच्या वाढत्या मागणीला थेट प्रतिसाद देतो.

DeepSeek-OCR ने सोडवण्याचा उद्देश असलेली मध्यवर्ती समस्या म्हणजे LLMs ची “लक्षात ठेवण्याची” किंवा माहितीवर प्रक्रिया करण्याची मर्यादित क्षमता. मजकूराचे संक्षिप्त प्रतिमांमध्ये रूपांतर करून, तंत्रज्ञान या मॉडेल्ससाठी माहितीचे मूलभूत एकक असलेल्या मजकूर टोकन्सच्या लांब अनुक्रमांवर प्रक्रिया करण्याची आवश्यकता सोडून देते. व्हिज्युअल डोमेनमधील हे रूपांतरण केवळ संसाधनाच्या वापरास अनुकूल करत नाही, तर आर्थिक अहवाल, वैज्ञानिक लेख आणि अगदी सॉफ्टवेअर स्त्रोत कोड यासारख्या जटिल दस्तऐवजांचे एकात्मिक आणि कार्यक्षमतेने विश्लेषण करण्यासाठी नवीन शक्यता देखील उघडते.

कार्यपद्धती त्याच्या कार्यक्षमतेसाठी वेगळी आहे. तुलनात्मक चाचण्यांमध्ये, मॉडेलने हे दाखवून दिले की ते एकल Nvidia A100 GPU वापरून दररोज 200,000 पेक्षा जास्त पृष्ठांचा डेटा तयार करण्यास सक्षम आहे, हे एक वैशिष्ट्य आहे जे ऑप्टिकल कॅरेक्टर रेकग्निशन (OCR) आणि दस्तऐवज प्रक्रिया कार्यांसाठी नवीन कार्यप्रदर्शन मानक सेट करते. DeepSeek चा नाविन्यपूर्ण दृष्टीकोन अर्थ, कायदा आणि शैक्षणिक यांसारख्या गहन दस्तऐवज विश्लेषणावर अवलंबून असलेल्या उद्योगांमध्ये AI च्या अवलंबनाला गती देऊ शकतो.

Inteligência Artificial
आर्टिफिशियल इंटेलिजेंस – फोटो: Owlie Productions/ Shutterstock.com

व्हिज्युअल कॉम्प्रेशनमागील नावीन्य

DeepSeek-OCR द्वि-चरण प्रक्रियेवर आधारित कार्य करते जी AI सिस्टमद्वारे मजकूर माहिती हाताळण्याच्या पद्धतीत आमूलाग्र रूपांतर करते. प्रथम, मॉडेलला मजकूर इनपुट प्राप्त होतात आणि आंतरिकरित्या त्यांना द्वि-आयामी प्रतिमांमध्ये रूपांतरित करते, जसे की ते डिजिटल स्क्रीनवर सामग्री “मुद्रित” करत आहे. विशेष व्हिज्युअल एन्कोडर नंतर या प्रतिमांचे विश्लेषण करतात आणि त्यांना व्हिज्युअल टोकनच्या खूपच लहान संख्येत संकुचित करतात. ही रणनीती प्रणालीच्या कार्यक्षमतेसाठी मूलभूत आहे, कारण ती प्रक्रियेसाठी आवश्यक संगणकीय भार कमी करते. तुलनेत, GOT-OCR2.0 सारख्या प्रतिस्पर्धी मॉडेल्सना एका पृष्ठावर प्रक्रिया करण्यासाठी सुमारे 256 टोकन्सची आवश्यकता असते, तर DeepSeek-OCR हेच कार्य केवळ 100 व्हिज्युअल टोकनसह करते, जे 60% पेक्षा जास्त ऑप्टिमायझेशनचे प्रतिनिधित्व करते.

तंत्रज्ञानाच्या सर्वात अत्याधुनिक पैलूंपैकी एक म्हणजे व्हेरिएबल कॉम्प्रेशन सिस्टमची अंमलबजावणी, जी मानवी मेमरी कार्य करण्याच्या पद्धतीची नक्कल करते. मॉडेल सर्वात अलीकडील आणि संबंधित संदर्भांसाठी उच्च रिझोल्यूशन आणि परिणामी, अधिक टोकन नियुक्त करते, तर जुनी किंवा कमी प्राधान्य माहिती कमी तपशिलांमध्ये संग्रहित केली जाते, कमी टोकन वापरून. हे डायनॅमिक रिसोर्स ॲलोकेशन हे सुनिश्चित करते की दीर्घकालीन स्टोरेज ऑप्टिमाइझ करताना अचूकता जिथे सर्वात जास्त आवश्यक आहे तिथे राखली जाते. सुमारे 100 भिन्न भाषा हाताळण्याची आणि आलेख, जटिल तक्ते आणि रासायनिक सूत्रांसारख्या गैर-पाठ्य घटकांवर प्रक्रिया करण्याची मॉडेलची क्षमता वास्तविक-जगातील परिस्थितींमध्ये त्याची उपयुक्तता वाढवते, ज्यामुळे ते जागतिक स्तरावर ज्ञानाचे डिजिटायझेशन आणि विश्लेषण करण्यासाठी एक बहुमुखी साधन बनते.

[[MVG_PROTECTED_BLOCK_0]

संख्यांमध्ये कार्यक्षमता आणि कामगिरी

DeepSeek-OCR ची श्रेष्ठता OmniDocBench सारख्या कठोर बेंचमार्कमध्ये प्रमाणित केली गेली आहे, जिथे त्याने अत्याधुनिक मॉडेल्सपेक्षा लक्षणीय कामगिरी केली आहे. एक उल्लेखनीय उदाहरण म्हणजे MinerU0 शी तुलना, जे एका कागदपत्र पृष्ठाचे विश्लेषण करण्यासाठी 6 हजार पेक्षा जास्त टोकन वापरते. याउलट, DeepSeek चे मॉडेल 800 पेक्षा कमी टोकन्ससह समान कार्य पूर्ण करते, संसाधनाच्या वापरामध्ये जवळपास 90% घट. जरी कॉम्प्रेशन रेट 20 पट वाढवला जातो, परिणामी अचूकता 60% कमी होते, तरीही तंत्रज्ञान अत्यंत दीर्घ संदर्भांचे विश्लेषण आवश्यक असलेल्या अनुप्रयोगांसाठी व्यवहार्य सिद्ध करते, जेथे विहंगावलोकन मिनिट तपशीलापेक्षा अधिक महत्त्वाचे आहे. हे कार्यप्रदर्शन केवळ प्रक्रियेला गती देत ​​नाही तर उत्पादन विश्लेषणानुसार 90% पर्यंत पोहोचू शकणाऱ्या ऑपरेशनल खर्चात बचत देखील करते. मॉडेलची अष्टपैलुत्व हा आणखी एक मजबूत मुद्दा आहे, जो आर्थिक अहवाल, इनव्हॉइस आणि अगदी हस्तलिखित नोट्स यांसारख्या कागदपत्रांवर प्रक्रिया करण्याची क्षमता प्रदर्शित करतो, तसेच इतर LLM ला प्रशिक्षण देण्यासाठी उच्च-गुणवत्तेचा कृत्रिम डेटा तयार करतो, उपलब्ध डेटासेटचा विस्तार करतो. प्रति इमेज 64 ते 400 टोकन्सच्या विविध रिझोल्यूशनसह सुसंगतता, विविध अनुप्रयोग गरजांसाठी लवचिकता सुनिश्चित करते.

कृत्रिम बुद्धिमत्ता समुदायातील परिणाम

DeepSeek-OCR लाँच केल्याने AI समुदायातील प्रमुख व्यक्तींकडून त्वरित आणि सकारात्मक प्रतिक्रिया निर्माण झाल्या. ओपनएआयचे सह-संस्थापक आणि क्षेत्रातील सर्वात प्रतिष्ठित आवाजांपैकी एक, आंद्रेज करपथी यांनी संशोधनाचे सार्वजनिकरित्या कौतुक केले आणि एक मूलभूत प्रश्न उपस्थित केला: एलएलएमसाठी मजकूर टोकनपेक्षा पिक्सेल अधिक कार्यक्षम इनपुट बनू शकतात का.

त्याच्या विश्लेषणात, कर्पथीने प्रक्रिया ऑप्टिमाइझ करण्यासाठी, मेमरी वापर आणि गतीच्या दृष्टीने संभाव्य फायदे हायलाइट करण्यासाठी सर्व मजकूर प्रतिमा म्हणून प्रस्तुत करण्याची शक्यता सुचवली. त्याच्या पोस्टने या तंत्राचा संपूर्णपणे प्रशिक्षण देण्यासाठी भाषा मॉडेल्सचा विस्तार करण्याच्या व्यवहार्यतेबद्दल विशेष मंचांमध्ये विकसक आणि संशोधकांमध्ये तीव्र वादविवाद उत्प्रेरित केले.

GitHub वरील प्रकल्पाने घोषणा केल्याच्या अवघ्या 24 तासांत 4,000 हून अधिक तारे मिळविल्याने ओपन सोर्स समुदायाचा उत्साह दिसून आला. ही जलद प्रतिबद्धता तंत्रज्ञानाचा प्रयोग आणि रुपांतर करण्यात तीव्र स्वारस्य दर्शवते, जे जगभरातील विकासक आणि कंपन्यांद्वारे संभाव्य वेगवान अवलंबन दर्शवते.

व्यावहारिक अनुप्रयोग आणि व्यवसाय प्रभाव

एंटरप्राइझ वातावरणासाठी DeepSeek-OCR चे परिणाम अफाट आणि परिवर्तनीय आहेत. या तंत्रज्ञानासह, कंपन्यांना एकाच AI परस्परसंवादामध्ये तांत्रिक दस्तऐवज, उत्पादन पुस्तिका किंवा स्त्रोत कोड भांडार यासारखे संपूर्ण ज्ञान आधार लोड करण्याची परवानगी देऊन खंडित प्रॉम्प्टच्या मर्यादांवर मात करू शकतात. हे अनुक्रमिक शोधांची आवश्यकता दूर करते आणि अधिक समग्र आणि संदर्भित विश्लेषणास अनुमती देते.

जेफ्री इमॅन्युएल, एक माजी परिमाणात्मक गुंतवणूकदार, लाखो टोकन्ससह त्वरित कॅशे तयार करण्याच्या तंत्रज्ञानाच्या संभाव्यतेवर प्रकाश टाकला, ज्यामुळे जटिल एंटरप्राइझ प्रश्नांमध्ये विलंब कमी होईल. शैक्षणिक लेख, वर्तमानपत्रे आणि वार्षिक अहवालांसह नऊ वेगवेगळ्या प्रकारच्या पीडीएफवर प्रक्रिया करण्याची क्षमता, विश्लेषणांना गती देते ज्यासाठी पूर्वी मॅन्युअल कामाचे आठवडे आवश्यक होते, कार्यसंघांना धोरणात्मक अंतर्दृष्टीवर लक्ष केंद्रित करण्यास मुक्त करते.

डीपएनकोडरची तांत्रिक यंत्रणा

DeepSeek-OCR च्या कामगिरीमागील आर्किटेक्चर त्याच्या DeepEncoder घटकाभोवती केंद्रित आहे. सॉफ्टवेअर अभियांत्रिकीचा हा भाग विशिष्ट कार्ये उच्च अनुकूल पद्धतीने करण्यासाठी प्रगत मॉडेल्सना एकत्रित करतो.

सुरुवातीला, सेगमेंट एनीथिंग मॉडेल (एसएएम) सारखी मॉडेल्स दस्तऐवज इमेजमधील लेआउट आणि घटकांच्या अचूक विभाजनासाठी वापरली जातात. समांतर, CLIP (Contrastive Language–Image Pre-training) मॉडेल पृष्ठाच्या जागतिक संदर्भाची समज प्रदान करते.

या प्रारंभिक विश्लेषणानंतर, एक कंप्रेसर कार्यात येतो, ज्यामुळे व्युत्पन्न केलेल्या टोकनची संख्या 16 पट कमी होते. हे आक्रमक कॉम्प्रेशन सिस्टमला कार्यक्षम होण्यास अनुमती देते, डेटा लोड कमी करते ज्यावर खालील चरणांमध्ये प्रक्रिया करणे आवश्यक आहे.

परिणाम म्हणजे एक फ्रेमवर्क जे अनुमानादरम्यान फक्त 570 दशलक्ष पॅरामीटर्स सक्रिय करते, MoE (तज्ञांचे मिश्रण) डीकोडरचे आभार जे प्रत्येक कार्यासाठी डायनॅमिकपणे सर्वात संबंधित न्यूरल “तज्ञ” निवडतात. हे बुद्धिमान डिझाइन A100 GPU सह 20-नोड क्लस्टरवर दररोज 33 दशलक्ष पृष्ठांचे विश्लेषण करण्याच्या क्षमतेसह अत्यंत जलद प्रक्रिया सक्षम करते.

तांत्रिक आव्हाने आणि तंत्रज्ञानाचे भविष्य

डेटा स्टोरेज आणि पुनर्रचना मध्ये उल्लेखनीय कार्यक्षमता असूनही, DeepSeek-OCR ला अजूनही मर्यादा आहेत. तंत्रज्ञानाचा सध्याचा फोकस दृष्यदृष्ट्या संकुचित सामग्रीबद्दल प्रगत तर्कापेक्षा विश्वासू माहिती पुनर्प्राप्तीवर अधिक आहे. रिअल-वर्ल्ड दस्तऐवजांमध्ये रिझोल्यूशन, रंग आणि स्कॅन गुणवत्तेतील फरक यासारखी व्यावहारिक आव्हाने अचूकतेवर परिणाम करू शकतात आणि त्यावर पूर्णपणे मात करण्यासाठी पुढील संशोधनाची आवश्यकता आहे.

संशोधनाच्या पुढील पायऱ्यांमध्ये डिजिटल आणि ऑप्टिकल मजकूराचे इंटरलीव्ह्ड पूर्व-प्रशिक्षण समाविष्ट आहे, जे दोन्ही स्वरूप मूळपणे समजून घेण्याची मॉडेलची क्षमता सुधारण्याचा प्रयत्न करते. मोठ्या प्रमाणातील डेटामधून विशिष्ट माहिती पुनर्प्राप्त करण्यात अचूकता मोजण्यासाठी “सुई-इन-ए-हेस्टॅक” चाचण्यांसारखे अधिक जटिल मूल्यांकन करण्याची टीमची योजना आहे. ओपन सोर्स फॉरमॅटमध्ये मॉडेलचे प्रकाशन हे जागतिक समुदायासाठी नैसर्गिक प्रतिमा आणि जटिल भौमितिक आकृत्यांवर प्रक्रिया करण्यासाठी तंत्रज्ञानाचा विस्तार करण्याच्या भविष्यातील योजनांसह रुपांतर आणि सुधारणांमध्ये योगदान देण्याचे आमंत्रण आहे.

बहुभाषिक समर्थन आणि दस्तऐवज अष्टपैलुत्व

DeepSeek-OCR च्या स्पर्धात्मक भिन्नतांपैकी एक म्हणजे त्याची व्यापक भाषिक क्षमता, सुमारे 100 भाषांसाठी समर्थन प्रदान करते. हे बहुराष्ट्रीय संस्था आणि आंतरराष्ट्रीय संशोधन प्रकल्पांना सेवा देण्यास सक्षम असलेले जागतिक साधन बनवते. मॉडेलला एका विशाल डेटासेटसह प्रशिक्षित केले गेले, ज्यामध्ये चीनी आणि इंग्रजीमध्ये 30 दशलक्ष पृष्ठे आहेत, जी व्यवसाय आणि विज्ञानाच्या जगात सर्वाधिक वापरल्या जाणाऱ्या भाषांमध्ये दृढता आणि अचूकतेची हमी देते. या अष्टपैलुत्वामुळे विविध दस्तऐवजांवर तंत्रज्ञान लागू केले जाऊ शकते, जे मूळ भाषा किंवा स्वरूपाकडे दुर्लक्ष करून, मोठ्या ज्ञान भांडारांच्या विश्लेषणास गती देते.

To Top