சீன தொழில்நுட்ப நிறுவனமான டீப்சீக், பெரிய மொழி மாடல்களின் (எல்.எல்.எம்) மிகப்பெரிய தடைகளில் ஒன்றான சூழல் சாளர வரம்புகளை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு மாடலான டீப்சீக்-ஓ.சி.ஆர் வெளியீட்டின் மூலம் செயற்கை நுண்ணறிவு துறையில் குறிப்பிடத்தக்க புதுமையை அறிவித்தது. புதிய அணுகுமுறை உரையை காட்சிப் பிரதிநிதித்துவமாக மாற்றுகிறது, கணிசமான தகவல் இழப்பு இல்லாமல் பத்து மடங்கு அதிக தரவு சுருக்கத்தை அனுமதிக்கிறது.
இந்த நுட்பம், அசல் உள்ளடக்கத்தை மீட்டெடுப்பதில் 97% துல்லியத்தை பராமரிக்கும் அதே வேளையில், AI அமைப்புகளை மிக விரைவாகவும் செலவு குறைந்ததாகவும் ஆவணங்களின் பாரிய அளவுகளை செயலாக்க அனுமதிக்கிறது. தொழில்நுட்பக் கட்டுரையில் விவரிக்கப்பட்டுள்ள மேம்பாடு, பெரிய அளவிலான தரவு செயலாக்கத்திற்கான வளர்ந்து வரும் தேவைக்கு, அதன் விளைவாக கணக்கீட்டுச் செலவுகள் அதிகரிக்காமல் நேரடியாக பதிலளிக்கிறது.
DeepSeek-OCR தீர்க்க நோக்கமாகக் கொண்ட முக்கிய பிரச்சனை, எல்எல்எம்களின் வரையறுக்கப்பட்ட திறனான “நினைவில் கொள்ள” அல்லது தகவலைச் செயலாக்குகிறது. உரையை கச்சிதமான படங்களாக மாற்றுவதன் மூலம், இந்த மாதிரிகளுக்கான தகவல்களின் அடிப்படை அலகுகளான உரை டோக்கன்களின் நீண்ட வரிசைகளை செயலாக்க வேண்டியதன் அவசியத்தை தொழில்நுட்பம் புறக்கணிக்கிறது, வளங்களின் பயன்பாட்டை மேம்படுத்துகிறது மற்றும் சிக்கலான ஆவணங்களை பகுப்பாய்வு செய்வதற்கான புதிய சாத்தியங்களைத் திறக்கிறது.

காட்சி சுருக்கத்தின் பின்னால் உள்ள புதுமை
DeepSeek-OCR ஆனது இரண்டு-படி செயல்முறையுடன் செயல்படுகிறது, இது AI அமைப்புகளால் உரைத் தகவல் எவ்வாறு கையாளப்படுகிறது என்பதைத் தீவிரமாக மாற்றுகிறது. முதலாவதாக, மாதிரியானது உள்ளீட்டு உரையைப் பெற்று, டிஜிட்டல் திரையில் உள்ளடக்கத்தை “அச்சிடுவது” போல, உள்நாட்டில் இரு பரிமாணப் படங்களாக மாற்றுகிறது. சிறப்பு காட்சி குறியாக்கிகள் இந்த படங்களை பகுப்பாய்வு செய்து அவற்றை மிகக் குறைந்த எண்ணிக்கையிலான காட்சி டோக்கன்களாக சுருக்குகின்றன. இந்த மூலோபாயம் கணினியின் செயல்திறனுக்கு அடிப்படையானது, ஏனெனில் இது செயலாக்கத்திற்குத் தேவையான கணக்கீட்டு சுமையை வெகுவாகக் குறைக்கிறது. ஒப்பிடுகையில், GOT-OCR2.0 போன்ற போட்டி மாடல்களுக்கு ஒரு பக்கத்தைச் செயலாக்க சுமார் 256 டோக்கன்கள் தேவைப்படுகின்றன, அதே சமயம் DeepSeek-OCR 100 காட்சி டோக்கன்களுடன் அதே பணியைச் செய்கிறது, இது 60% க்கும் அதிகமான மேம்படுத்தலைக் குறிக்கிறது.
இந்த தொழில்நுட்பத்தின் அதிநவீன அம்சங்களில் ஒன்று மனித நினைவகத்தின் செயல்பாட்டைப் பின்பற்றும் மாறி சுருக்க அமைப்பை செயல்படுத்துவதாகும். மாடல் அதிக தெளிவுத்திறனை வழங்குகிறது, அதன் விளைவாக, மிக சமீபத்திய மற்றும் தொடர்புடைய சூழல்களுக்கு அதிக டோக்கன்களை வழங்குகிறது, அதே நேரத்தில் பழைய அல்லது குறைவான முன்னுரிமைத் தகவல் குறைந்த விவரங்களில் சேமிக்கப்பட்டு குறைவான டோக்கன்களைப் பயன்படுத்துகிறது. இந்த டைனமிக் ஆதார ஒதுக்கீடு, நீண்ட கால சேமிப்பகத்தை மேம்படுத்தும் அதே வேளையில், தேவைப்படும் இடங்களில் துல்லியம் பராமரிக்கப்படுவதை உறுதி செய்கிறது. ஏறக்குறைய 100 வெவ்வேறு மொழிகளைக் கையாளும் மற்றும் வரைபடங்கள், சிக்கலான அட்டவணைகள் மற்றும் வேதியியல் சூத்திரங்கள் போன்ற உரை அல்லாத கூறுகளைச் செயலாக்கும் மாடலின் திறன், நிஜ உலகக் காட்சிகளில் அதன் பொருந்தக்கூடிய தன்மையை மேலும் விரிவுபடுத்துகிறது, இது உலக அளவில் அறிவை டிஜிட்டல் மயமாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு பல்துறை கருவியாக அமைகிறது.
எண்ணிக்கையில் செயல்திறன் மற்றும் செயல்திறன்
DeepSeek-OCR இன் மேன்மையானது OmniDocBench போன்ற கடுமையான பெஞ்ச்மார்க் சோதனைகளில் சரிபார்க்கப்பட்டது, அங்கு இது அதிநவீன மாடல்களை கணிசமாக விஞ்சியது. ஒரு குறிப்பிடத்தக்க உதாரணம் MinerU உடனான ஒப்பீடு ஆகும், இது ஒரு ஆவணப் பக்கத்தை பகுப்பாய்வு செய்ய 6 ஆயிரத்துக்கும் மேற்பட்ட டோக்கன்களைப் பயன்படுத்துகிறது. இதற்கு நேர்மாறாக, DeepSeek மாதிரியானது 800க்கும் குறைவான டோக்கன்களைப் பயன்படுத்தி அதே பணியைச் செய்கிறது, இது வள நுகர்வில் கிட்டத்தட்ட 90% குறைப்பைக் குறிக்கிறது. சுருக்க விகிதம் 20 மடங்கு அதிகரிக்கப்பட்டாலும், துல்லியத்தில் 60% வீழ்ச்சி ஏற்பட்டாலும், மிக நீண்ட சூழல்களின் பகுப்பாய்வு தேவைப்படும் பயன்பாடுகளுக்கு தொழில்நுட்பம் இன்னும் சாத்தியமானதாக நிரூபிக்கிறது, இதில் நிமிட விவரங்களை விட மேலோட்டம் முக்கியமானது. இந்த செயல்திறன் செயலாக்கத்தை விரைவுபடுத்துவது மட்டுமல்லாமல், செயல்பாட்டுச் செலவுகளில் சேமிப்பையும் உருவாக்குகிறது, இது உற்பத்தி பகுப்பாய்வுகளின்படி 90% ஐ அடையலாம். மாடலின் பல்துறை மற்றொரு வலுவான அம்சமாகும், இது நிதி அறிக்கைகள், விலைப்பட்டியல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகள் போன்ற ஒழுங்கற்ற தளவமைப்புகளுடன் ஆவணங்களை செயலாக்கும் திறனை நிரூபிக்கிறது, அத்துடன் மற்ற LLM களுக்கு பயிற்சியளிக்க உயர்தர செயற்கைத் தரவை உருவாக்குகிறது, கிடைக்கக்கூடிய தரவு தொகுப்புகளை விரிவுபடுத்துகிறது. ஒரு படத்திற்கு 64 முதல் 400 டோக்கன்கள் வரை வெவ்வேறு தீர்மானங்களுடன் இணக்கமானது, பல்வேறு பயன்பாட்டுத் தேவைகளுக்கு நெகிழ்வுத்தன்மையை உறுதி செய்கிறது.
செயற்கை நுண்ணறிவு சமூகத்தில் ஏற்படும் விளைவுகள்
DeepSeek-OCR இன் வெளியீடு AI சமூகத்தில் உள்ள முக்கிய நபர்களிடமிருந்து உடனடி மற்றும் நேர்மறையான எதிர்வினைகளை உருவாக்கியது. OpenAI இன் இணை நிறுவனர் மற்றும் துறையில் மிகவும் மதிக்கப்படும் குரல்களில் ஒருவரான Andrej Karpathi, ஆராய்ச்சியை பொதுவில் பாராட்டினார்.
அவரது பகுப்பாய்வில், எல்எல்எம்களுக்கான உரை டோக்கன்களை விட பிக்சல்கள் மிகவும் திறமையான உள்ளீட்டு கருவியாக மாற முடியுமா என்ற அடிப்படை கேள்வியை கார்பதி எழுப்பினார், செயலாக்கத்தை மேம்படுத்த அனைத்து உரைகளையும் ஒரு படமாக வழங்குவதற்கான சாத்தியத்தை பரிந்துரைத்தார்.
மொழி மாதிரிகளை முழுமையாகப் பயிற்றுவிப்பதற்கு இந்த நுட்பத்தை விரிவுபடுத்துவதற்கான சாத்தியக்கூறுகள் குறித்து சிறப்பு மன்றங்களில் டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களிடையே இந்த இடுகை தீவிர விவாதத்தைத் தூண்டியது, நினைவக பயன்பாடு மற்றும் வேகத்தின் அடிப்படையில் சாத்தியமான நன்மைகளை எடுத்துக்காட்டுகிறது.
திறந்த மூல சமூகத்தின் உற்சாகம் தெளிவாகத் தெரிந்தது, GitHub இல் திட்டம் அறிவிக்கப்பட்ட 24 மணி நேரத்திற்குள் 4,000 நட்சத்திரங்களுக்கு மேல் குவிந்து, தொழில்நுட்பத்தை பரிசோதித்து மாற்றியமைப்பதில் வலுவான ஆர்வத்தைக் குறிக்கிறது.
நடைமுறை பயன்பாடுகள் மற்றும் வணிக தாக்கம்
நிறுவன சூழலுக்கான DeepSeek-OCR இன் தாக்கங்கள் பரந்த மற்றும் மாற்றத்தக்கவை. இந்தத் தொழில்நுட்பத்தின் மூலம், தொழில்நுட்ப ஆவணங்கள், தயாரிப்பு கையேடுகள் அல்லது மூலக் குறியீடு களஞ்சியங்கள் போன்ற முழு அறிவுத் தளங்களையும் ஒரே AI தொடர்புகளில் ஏற்றுவதற்கு நிறுவனங்கள் அனுமதிப்பதன் மூலம் துண்டு துண்டான தூண்டுதல்களின் வரம்புகளைக் கடக்க முடியும்.
இது தொடர் தேடல்களின் தேவையை நீக்குகிறது மேலும் முழுமையான மற்றும் சூழல் சார்ந்த பகுப்பாய்வை அனுமதிக்கிறது. முன்னாள் அளவு முதலீட்டாளரான ஜெஃப்ரி இமானுவேல், மில்லியன் கணக்கான டோக்கன்களைக் கொண்ட தற்காலிக சேமிப்புகளை விரைவாக உருவாக்குவதற்கான தொழில்நுட்பத்தின் திறனைக் குறிப்பிட்டார், இது சிக்கலான நிறுவன வினவல்களுக்கான தாமதத்தை வெகுவாகக் குறைக்கும், மேலும் பல வாரங்கள் கைமுறையாக வேலை செய்ய வேண்டிய பகுப்பாய்வுகளை துரிதப்படுத்தும்.
டீப்என்கோடரின் தொழில்நுட்ப வழிமுறை
DeepSeek-OCR இன் செயல்திறனுக்குப் பின்னால் உள்ள கட்டமைப்பு DeepEncoder கூறுகளை மையமாகக் கொண்டது. இந்த மென்பொருள் பொறியியல் குறிப்பிட்ட பணிகளை மிகவும் உகந்த முறையில் செய்ய மேம்பட்ட மாதிரிகளை ஒருங்கிணைக்கிறது.
ஆரம்பத்தில், Segment Anything Model (SAM) போன்ற மாதிரிகள் ஆவணத்தின் தளவமைப்பு மற்றும் பட கூறுகளை துல்லியமாகப் பிரிக்கப் பயன்படுத்தப்படுகின்றன.
அதே நேரத்தில், CLIP (கான்ட்ராஸ்டிவ் லாங்குவேஜ்-இமேஜ் முன் பயிற்சி) மாதிரியானது பக்கத்தின் உலகளாவிய சூழலைப் புரிந்துகொள்வதற்கு உத்தரவாதம் அளிக்கிறது.
இந்த ஆரம்ப பகுப்பாய்விற்குப் பிறகு, ஒரு கம்ப்ரசர் செயல்பாட்டிற்கு வருகிறது, டோக்கன்களின் எண்ணிக்கையை 16 மடங்கு வரை குறைக்கிறது, இது கணினி செயல்திறனுக்கு உத்தரவாதம் அளிக்கிறது மற்றும் பின்வரும் படிகளில் செயலாக்கப்பட வேண்டிய தரவு சுமையை குறைக்கிறது.
தொழில்நுட்ப சவால்கள் மற்றும் தொழில்நுட்பத்தின் எதிர்காலம்
தரவு சேமிப்பு மற்றும் புனரமைப்பு ஆகியவற்றில் அதன் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், DeepSeek-OCR இன்னும் வரம்புகளை எதிர்கொள்கிறது. தற்போது, தொழில்நுட்பமானது பார்வைக்கு சுருக்கப்பட்ட உள்ளடக்கத்தைப் பற்றிய மேம்பட்ட பகுத்தறிவைக் காட்டிலும் நம்பகமான தகவலை மீட்டெடுப்பதில் அதிக கவனம் செலுத்துகிறது.
நிஜ உலக ஆவணங்களில் தெளிவுத்திறன், வண்ணம் மற்றும் ஸ்கேன் தரத்தில் உள்ள மாறுபாடுகள் போன்ற நடைமுறைச் சவால்கள் துல்லியத்தை பாதிக்கலாம் மேலும் முழுமையாக சமாளிக்க கூடுதல் ஆராய்ச்சி தேவை. ஆராய்ச்சியின் அடுத்த படிகளில் டிஜிட்டல் மற்றும் ஆப்டிகல் உரையின் இடைப்பட்ட முன் பயிற்சி ஆகியவை அடங்கும், இது இரண்டு வடிவங்களையும் சொந்தமாக புரிந்து கொள்ளும் மாதிரியின் திறனை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளது.
பன்மொழி ஆதரவு மற்றும் பல்துறை
DeepSeek-OCR இன் போட்டி வேறுபாடுகளில் ஒன்று அதன் பரந்த மொழியியல் திறன்கள் ஆகும், இது சுமார் 100 மொழிகளுக்கான ஆதரவை வழங்குகிறது. இது ஒரு உலகளாவிய கருவியாக மாற்றுகிறது, இது சர்வதேச நிறுவனங்கள் மற்றும் பன்னாட்டு ஆராய்ச்சி திட்டங்களுக்கு சேவை செய்யும் திறன் கொண்டது. இந்த மாதிரியானது, சீன மற்றும் ஆங்கிலத்தில் 30 மில்லியன் பக்கங்களைக் கொண்ட ஒரு பரந்த தரவுத்தொகுப்பில் பயிற்சியளிக்கப்பட்டது, வணிகம் மற்றும் அறிவியல் உலகில் அதிகம் பயன்படுத்தப்படும் மொழிகளில் வலிமை மற்றும் துல்லியத்தை உறுதி செய்கிறது.