சீன தொழில்நுட்ப நிறுவனமான டீப்சீக், பெரிய மொழி மாடல்களின் (எல்.எல்.எம்) மிகப்பெரிய தடைகளில் ஒன்றான சூழல் சாளர வரம்புகளை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு மாடலான டீப்சீக்-ஓ.சி.ஆர் வெளியீட்டின் மூலம் செயற்கை நுண்ணறிவு துறையில் குறிப்பிடத்தக்க புதுமையை அறிவித்தது. புதிய அணுகுமுறை உரையை காட்சிப் பிரதிநிதித்துவமாக மாற்றுகிறது, கணிசமான தகவலை இழக்காமல் பத்து மடங்கு அதிக தரவு சுருக்கத்தை அனுமதிக்கிறது.
இந்த நுட்பம், அசல் உள்ளடக்கத்தை மீட்டெடுப்பதில் 97% துல்லியத்தை பராமரிக்கும் அதே வேளையில், AI அமைப்புகளை மிக விரைவாகவும் செலவு குறைந்ததாகவும் ஆவணங்களின் பாரிய அளவுகளை செயலாக்க அனுமதிக்கிறது. அக்டோபர் 20, 2025 தேதியிட்ட தொழில்நுட்பக் கட்டுரையில் விவரிக்கப்பட்டுள்ள இந்த மேம்பாடு, பெரிய அளவிலான தரவுச் செயலாக்கத்திற்கான வளர்ந்து வரும் தேவைக்கு, கணக்கீட்டுச் செலவுகளில் அதிகரிப்பு இல்லாமல் நேரடியாக பதிலளிக்கிறது.
டீப்சீக்-ஓசிஆர் தீர்க்கும் நோக்கத்தில் உள்ள முக்கியப் பிரச்சனையானது, எல்எல்எம்களின் வரையறுக்கப்பட்ட திறனான “நினைவில்” அல்லது தகவலைச் செயலாக்குவதுதான். உரையை கச்சிதமான படங்களாக மாற்றுவதன் மூலம், இந்த மாதிரிகளுக்கான தகவல்களின் அடிப்படை அலகுகளான உரை டோக்கன்களின் நீண்ட வரிசைகளை செயலாக்க வேண்டியதன் அவசியத்தை தொழில்நுட்பம் புறக்கணிக்கிறது, வளங்களின் பயன்பாட்டை மேம்படுத்துகிறது மற்றும் சிக்கலான ஆவணங்களை பகுப்பாய்வு செய்வதற்கான புதிய சாத்தியங்களைத் திறக்கிறது.

காட்சி சுருக்கத்தின் பின்னால் புதுமை
DeepSeek-OCR ஆனது இரண்டு-படி செயல்முறையுடன் செயல்படுகிறது, இது AI அமைப்புகளால் உரைத் தகவல் எவ்வாறு கையாளப்படுகிறது என்பதைத் தீவிரமாக மாற்றுகிறது. முதலாவதாக, மாதிரியானது உள்ளீட்டு உரையைப் பெற்று, டிஜிட்டல் திரையில் உள்ளடக்கத்தை “அச்சிடுவது” போல, உள்நாட்டில் இரு பரிமாணப் படங்களாக மாற்றுகிறது. சிறப்பு காட்சி குறியாக்கிகள் இந்த படங்களை பகுப்பாய்வு செய்து அவற்றை மிகக் குறைந்த எண்ணிக்கையிலான காட்சி டோக்கன்களாக சுருக்குகின்றன. இந்த மூலோபாயம் கணினியின் செயல்திறனுக்கு அடிப்படையானது, ஏனெனில் இது செயலாக்கத்திற்குத் தேவையான கணக்கீட்டு சுமையை வெகுவாகக் குறைக்கிறது. தொழில்நுட்பத்தின் அதிநவீன அம்சங்களில் ஒன்று மனித நினைவகத்தின் செயல்பாட்டைப் பிரதிபலிக்கும் ஒரு மாறி சுருக்க அமைப்பை செயல்படுத்துவதாகும். மாடல் அதிக தெளிவுத்திறனை வழங்குகிறது, அதன் விளைவாக, மிக சமீபத்திய மற்றும் தொடர்புடைய சூழல்களுக்கு அதிக டோக்கன்களை வழங்குகிறது, அதே நேரத்தில் பழைய அல்லது குறைவான முன்னுரிமைத் தகவல் குறைந்த விவரங்களுடன் மற்றும் குறைவான டோக்கன்களைப் பயன்படுத்துகிறது. இந்த டைனமிக் ஆதார ஒதுக்கீடு, நீண்ட கால சேமிப்பகத்தை மேம்படுத்தும் அதே வேளையில், தேவைப்படும் இடங்களில் துல்லியம் பராமரிக்கப்படுவதை உறுதி செய்கிறது. ஏறக்குறைய 100 வெவ்வேறு மொழிகளைக் கையாளும் மற்றும் வரைபடங்கள், சிக்கலான அட்டவணைகள் மற்றும் வேதியியல் சூத்திரங்கள் போன்ற உரை அல்லாத கூறுகளைச் செயலாக்கும் மாடலின் திறன், நிஜ உலகக் காட்சிகளில் அதன் பொருந்தக்கூடிய தன்மையை மேலும் விரிவுபடுத்துகிறது, இது உலக அளவில் அறிவை டிஜிட்டல் மயமாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு பல்துறை கருவியாக அமைகிறது.
எண்ணிக்கையில் செயல்திறன் மற்றும் செயல்திறன்
DeepSeek-OCR இன் மேன்மையானது OmniDocBench போன்ற கடுமையான பெஞ்ச்மார்க் சோதனைகளில் சரிபார்க்கப்பட்டது, அங்கு இது அதிநவீன மாடல்களை கணிசமாக விஞ்சியது. ஒப்பீட்டுச் சோதனைகளில், ஒரு Nvidia A100 GPU ஐப் பயன்படுத்தி ஒரு நாளைக்கு 200,000 பக்கங்களுக்கு மேல் தரவை உருவாக்கும் திறன் கொண்டதாக மாடல் காட்டப்பட்டது, இது ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) மற்றும் ஆவணச் செயலாக்கப் பணிகளில் ஒரு புதிய தரநிலை செயல்திறனை அமைக்கிறது.
செயல்திறன் செயலாக்கத்தை விரைவுபடுத்துவது மட்டுமல்லாமல், செயல்பாட்டுச் செலவுகளில் சேமிப்பையும் உருவாக்குகிறது, இது உற்பத்தி பகுப்பாய்வுகளின்படி 90% ஐ அடையலாம். மாடலின் பல்துறை மற்றொரு வலுவான புள்ளியாகும், இது நிதி அறிக்கைகள், விலைப்பட்டியல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகள் போன்ற ஒழுங்கற்ற தளவமைப்புகளுடன் ஆவணங்களை செயலாக்கும் திறனைக் காட்டுகிறது, அத்துடன் மற்ற LLM களுக்கு பயிற்சியளிக்க உயர்தர செயற்கைத் தரவை உருவாக்குகிறது, கிடைக்கக்கூடிய தரவுத் தொகுப்புகளை விரிவுபடுத்துகிறது. ஒவ்வொரு படத்திற்கும் 64 முதல் 400 டோக்கன்கள் வரை வெவ்வேறு தெளிவுத்திறனுடன் இணக்கமானது, வெவ்வேறு பயன்பாட்டுத் தேவைகளுக்கு நெகிழ்வுத்தன்மையை உத்தரவாதம் செய்கிறது.
டீப்என்கோடரின் தொழில்நுட்ப வழிமுறை
DeepSeek-OCR இன் செயல்பாட்டின் பின்னணியில் உள்ள கட்டமைப்பு DeepEncoder கூறுகளை மையமாகக் கொண்டது. இந்த மென்பொருள் பொறியியல் குறிப்பிட்ட பணிகளை மிகவும் உகந்த முறையில் செய்ய மேம்பட்ட மாதிரிகளை ஒருங்கிணைக்கிறது. ஆரம்பத்தில், Segment Anything Model (SAM) போன்ற மாதிரிகள் ஆவணத்தின் தளவமைப்பு மற்றும் பட கூறுகளை துல்லியமாகப் பிரிக்கப் பயன்படுத்தப்படுகின்றன. அதே நேரத்தில், CLIP (கான்ட்ராஸ்டிவ் லாங்குவேஜ்-இமேஜ் முன் பயிற்சி) மாதிரியானது பக்கத்தின் உலகளாவிய சூழலைப் புரிந்துகொள்வதற்கு உத்தரவாதம் அளிக்கிறது. இந்த ஆரம்ப பகுப்பாய்விற்குப் பிறகு, 16 மடங்கு வரை உருவாக்கப்பட்ட டோக்கன்களின் எண்ணிக்கையைக் குறைக்க ஒரு கம்ப்ரசர் செயல்பாட்டிற்கு வருகிறது, இது கணினியின் செயல்திறனுக்கு உத்தரவாதம் அளிக்கிறது. இதன் விளைவாக, அனுமானத்தின் போது, வெறும் 570 மில்லியன் அளவுருக்களை மட்டுமே செயல்படுத்துகிறது, ஒவ்வொரு பணிக்கும் மிகவும் பொருத்தமான நரம்பியல் “நிபுணர்களை” மாறும் வகையில் தேர்ந்தெடுக்கும் MoE (நிபுணர்களின் கலவை) குறிவிலக்கிக்கு நன்றி.
செயற்கை நுண்ணறிவு சமூகத்தில் ஏற்படும் விளைவுகள்
DeepSeek-OCR இன் வெளியீடு AI சமூகத்தில் உள்ள முக்கிய நபர்களிடமிருந்து உடனடி மற்றும் நேர்மறையான எதிர்வினைகளை உருவாக்கியது. OpenAI இன் இணை நிறுவனர் Andrej Karpathi, இந்த ஆய்வை பகிரங்கமாக பாராட்டினார்.
அவரது பகுப்பாய்வில், எல்எல்எம்களுக்கான உரை டோக்கன்களை விட பிக்சல்கள் மிகவும் திறமையான உள்ளீட்டு கருவியாக மாற முடியுமா என்ற அடிப்படை கேள்வியை கார்பதி எழுப்பினார்.
அவரது இடுகை, மொழி மாதிரிகளை முழுமையாகப் பயிற்றுவிக்க இந்த நுட்பத்தை விரிவுபடுத்துவதற்கான சாத்தியக்கூறுகள் குறித்து சிறப்பு மன்றங்களில் டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களிடையே ஒரு தீவிர விவாதத்தைத் தூண்டியது.
நடைமுறை பயன்பாடுகள் மற்றும் வணிக தாக்கம்
நிறுவன சூழலுக்கான DeepSeek-OCR இன் தாக்கங்கள் பரந்த மற்றும் மாற்றத்தக்கவை. இந்த தொழில்நுட்பத்தின் மூலம், நிறுவனங்கள் துண்டு துண்டான தூண்டுதல்களின் வரம்புகளை கடக்க முடியும்.
தொழில்நுட்ப ஆவணங்கள், தயாரிப்பு கையேடுகள் அல்லது மூலக் குறியீடு களஞ்சியங்கள் போன்ற முழு அறிவுத் தளங்களையும் AI உடனான ஒரு தொடர்பு மூலம் ஏற்றுவதற்கு இது உங்களை அனுமதிக்கிறது.
முன்னாள் அளவு முதலீட்டாளரான ஜெஃப்ரி இமானுவேல், மில்லியன் கணக்கான டோக்கன்களைக் கொண்ட தற்காலிக சேமிப்புகளை விரைவாக உருவாக்குவதற்கான தொழில்நுட்பத்தின் திறனைக் குறிப்பிட்டார், இது சிக்கலான நிறுவன வினவல்களுக்கான தாமதத்தை வெகுவாகக் குறைக்கும்.
கல்விக் கட்டுரைகள், செய்தித்தாள்கள் மற்றும் வருடாந்திர அறிக்கைகள் உட்பட ஒன்பது வெவ்வேறு வகையான PDF கோப்புகளைச் செயலாக்கும் திறன், பல வாரங்கள் கைமுறையாக வேலை செய்ய வேண்டிய பகுப்பாய்வுகளை விரைவுபடுத்துகிறது.
தொழில்நுட்ப சவால்கள் மற்றும் தொழில்நுட்பத்தின் எதிர்காலம்
தரவு சேமிப்பு மற்றும் புனரமைப்பில் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், DeepSeek-OCR இன்னும் வரம்புகளை எதிர்கொள்கிறது. தற்போது, தொழில்நுட்பமானது பார்வைக்கு சுருக்கப்பட்ட உள்ளடக்கத்தின் மீது மேம்பட்ட பகுத்தறிவைக் காட்டிலும் உண்மையுள்ள தகவலை மீட்டெடுப்பதில் அதிக கவனம் செலுத்துகிறது.
நிஜ உலக ஆவணங்களில் தெளிவுத்திறன், வண்ணம் மற்றும் ஸ்கேன் தரத்தில் உள்ள மாறுபாடுகள் போன்ற நடைமுறைச் சவால்கள் துல்லியத்தை பாதிக்கலாம் மேலும் முழுமையாக சமாளிக்க கூடுதல் ஆராய்ச்சி தேவை.
பன்மொழி ஆதரவு மற்றும் ஆவண பல்துறை
DeepSeek-OCR இன் போட்டி வேறுபாடுகளில் ஒன்று அதன் பரந்த மொழியியல் திறன்கள் ஆகும், இது தோராயமாக 100 மொழிகளுக்கான ஆதரவை வழங்குகிறது. இது ஒரு உலகளாவிய கருவியாக மாற்றுகிறது, இது சர்வதேச நிறுவனங்கள் மற்றும் பன்னாட்டு ஆராய்ச்சி திட்டங்களுக்கு சேவை செய்யும் திறன் கொண்டது.
இந்த மாதிரியானது சீன மற்றும் ஆங்கிலத்தில் 30 மில்லியன் பக்கங்களைக் கொண்ட ஒரு பரந்த தரவுத்தொகுப்பில் பயிற்றுவிக்கப்பட்டது, இது வணிகம் மற்றும் அறிவியல் உலகில் அதிகம் பயன்படுத்தப்படும் மொழிகளில் வலிமை மற்றும் துல்லியத்திற்கு உத்தரவாதம் அளிக்கிறது. இந்த உலகளாவிய தன்மையானது, அசல் மொழி அல்லது வடிவத்தைப் பொருட்படுத்தாமல், பெரிய அறிவுக் களஞ்சியங்களின் பகுப்பாய்வை முடுக்கி, பல்வேறு வகையான ஆவணங்களுக்கு தொழில்நுட்பத்தைப் பயன்படுத்த அனுமதிக்கிறது.