News (TA)

டீப்சீக் 97% நம்பகத்தன்மையை அடையும் டெக்ஸ்ட்-இன்-இமேஜ் சுருக்கத்துடன் AI இல் புரட்சியை ஏற்படுத்துகிறது

DeepSeek
DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

சீன தொழில்நுட்ப நிறுவனமான டீப்சீக், பெரிய மொழி மாடல்களின் (எல்.எல்.எம்) மிகப்பெரிய தடைகளில் ஒன்றான சூழல் சாளர வரம்புகளை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு மாடலான டீப்சீக்-ஓ.சி.ஆர் வெளியீட்டின் மூலம் செயற்கை நுண்ணறிவு துறையில் குறிப்பிடத்தக்க புதுமையை அறிவித்தது. புதிய அணுகுமுறை உரையை காட்சிப் பிரதிநிதித்துவமாக மாற்றுகிறது, கணிசமான தகவலை இழக்காமல் பத்து மடங்கு அதிக தரவு சுருக்கத்தை அனுமதிக்கிறது.

இந்த நுட்பம், அசல் உள்ளடக்கத்தை மீட்டெடுப்பதில் 97% துல்லியத்தை பராமரிக்கும் அதே வேளையில், AI அமைப்புகளை மிக விரைவாகவும் செலவு குறைந்ததாகவும் ஆவணங்களின் பாரிய அளவுகளை செயலாக்க அனுமதிக்கிறது. அக்டோபர் 20, 2025 தேதியிட்ட தொழில்நுட்பக் கட்டுரையில் விவரிக்கப்பட்டுள்ள இந்த மேம்பாடு, பெரிய அளவிலான தரவுச் செயலாக்கத்திற்கான வளர்ந்து வரும் தேவைக்கு, கணக்கீட்டுச் செலவுகளில் அதிகரிப்பு இல்லாமல் நேரடியாக பதிலளிக்கிறது.

டீப்சீக்-ஓசிஆர் தீர்க்கும் நோக்கத்தில் உள்ள முக்கியப் பிரச்சனையானது, எல்எல்எம்களின் வரையறுக்கப்பட்ட திறனான “நினைவில்” அல்லது தகவலைச் செயலாக்குவதுதான். உரையை கச்சிதமான படங்களாக மாற்றுவதன் மூலம், இந்த மாதிரிகளுக்கான தகவல்களின் அடிப்படை அலகுகளான உரை டோக்கன்களின் நீண்ட வரிசைகளை செயலாக்க வேண்டியதன் அவசியத்தை தொழில்நுட்பம் புறக்கணிக்கிறது, வளங்களின் பயன்பாட்டை மேம்படுத்துகிறது மற்றும் சிக்கலான ஆவணங்களை பகுப்பாய்வு செய்வதற்கான புதிய சாத்தியங்களைத் திறக்கிறது.

Inteligência Artificial
செயற்கை நுண்ணறிவு – புகைப்படம்: Owlie Productions/ Shutterstock.com

காட்சி சுருக்கத்தின் பின்னால் புதுமை

DeepSeek-OCR ஆனது இரண்டு-படி செயல்முறையுடன் செயல்படுகிறது, இது AI அமைப்புகளால் உரைத் தகவல் எவ்வாறு கையாளப்படுகிறது என்பதைத் தீவிரமாக மாற்றுகிறது. முதலாவதாக, மாதிரியானது உள்ளீட்டு உரையைப் பெற்று, டிஜிட்டல் திரையில் உள்ளடக்கத்தை “அச்சிடுவது” போல, உள்நாட்டில் இரு பரிமாணப் படங்களாக மாற்றுகிறது. சிறப்பு காட்சி குறியாக்கிகள் இந்த படங்களை பகுப்பாய்வு செய்து அவற்றை மிகக் குறைந்த எண்ணிக்கையிலான காட்சி டோக்கன்களாக சுருக்குகின்றன. இந்த மூலோபாயம் கணினியின் செயல்திறனுக்கு அடிப்படையானது, ஏனெனில் இது செயலாக்கத்திற்குத் தேவையான கணக்கீட்டு சுமையை வெகுவாகக் குறைக்கிறது. தொழில்நுட்பத்தின் அதிநவீன அம்சங்களில் ஒன்று மனித நினைவகத்தின் செயல்பாட்டைப் பிரதிபலிக்கும் ஒரு மாறி சுருக்க அமைப்பை செயல்படுத்துவதாகும். மாடல் அதிக தெளிவுத்திறனை வழங்குகிறது, அதன் விளைவாக, மிக சமீபத்திய மற்றும் தொடர்புடைய சூழல்களுக்கு அதிக டோக்கன்களை வழங்குகிறது, அதே நேரத்தில் பழைய அல்லது குறைவான முன்னுரிமைத் தகவல் குறைந்த விவரங்களுடன் மற்றும் குறைவான டோக்கன்களைப் பயன்படுத்துகிறது. இந்த டைனமிக் ஆதார ஒதுக்கீடு, நீண்ட கால சேமிப்பகத்தை மேம்படுத்தும் அதே வேளையில், தேவைப்படும் இடங்களில் துல்லியம் பராமரிக்கப்படுவதை உறுதி செய்கிறது. ஏறக்குறைய 100 வெவ்வேறு மொழிகளைக் கையாளும் மற்றும் வரைபடங்கள், சிக்கலான அட்டவணைகள் மற்றும் வேதியியல் சூத்திரங்கள் போன்ற உரை அல்லாத கூறுகளைச் செயலாக்கும் மாடலின் திறன், நிஜ உலகக் காட்சிகளில் அதன் பொருந்தக்கூடிய தன்மையை மேலும் விரிவுபடுத்துகிறது, இது உலக அளவில் அறிவை டிஜிட்டல் மயமாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு பல்துறை கருவியாக அமைகிறது.

எண்ணிக்கையில் செயல்திறன் மற்றும் செயல்திறன்

DeepSeek-OCR இன் மேன்மையானது OmniDocBench போன்ற கடுமையான பெஞ்ச்மார்க் சோதனைகளில் சரிபார்க்கப்பட்டது, அங்கு இது அதிநவீன மாடல்களை கணிசமாக விஞ்சியது. ஒப்பீட்டுச் சோதனைகளில், ஒரு Nvidia A100 GPU ஐப் பயன்படுத்தி ஒரு நாளைக்கு 200,000 பக்கங்களுக்கு மேல் தரவை உருவாக்கும் திறன் கொண்டதாக மாடல் காட்டப்பட்டது, இது ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) மற்றும் ஆவணச் செயலாக்கப் பணிகளில் ஒரு புதிய தரநிலை செயல்திறனை அமைக்கிறது.

[[MVG_PROTECTED_BLOCK_0]

செயல்திறன் செயலாக்கத்தை விரைவுபடுத்துவது மட்டுமல்லாமல், செயல்பாட்டுச் செலவுகளில் சேமிப்பையும் உருவாக்குகிறது, இது உற்பத்தி பகுப்பாய்வுகளின்படி 90% ஐ அடையலாம். மாடலின் பல்துறை மற்றொரு வலுவான புள்ளியாகும், இது நிதி அறிக்கைகள், விலைப்பட்டியல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகள் போன்ற ஒழுங்கற்ற தளவமைப்புகளுடன் ஆவணங்களை செயலாக்கும் திறனைக் காட்டுகிறது, அத்துடன் மற்ற LLM களுக்கு பயிற்சியளிக்க உயர்தர செயற்கைத் தரவை உருவாக்குகிறது, கிடைக்கக்கூடிய தரவுத் தொகுப்புகளை விரிவுபடுத்துகிறது. ஒவ்வொரு படத்திற்கும் 64 முதல் 400 டோக்கன்கள் வரை வெவ்வேறு தெளிவுத்திறனுடன் இணக்கமானது, வெவ்வேறு பயன்பாட்டுத் தேவைகளுக்கு நெகிழ்வுத்தன்மையை உத்தரவாதம் செய்கிறது.

டீப்என்கோடரின் தொழில்நுட்ப வழிமுறை

DeepSeek-OCR இன் செயல்பாட்டின் பின்னணியில் உள்ள கட்டமைப்பு DeepEncoder கூறுகளை மையமாகக் கொண்டது. இந்த மென்பொருள் பொறியியல் குறிப்பிட்ட பணிகளை மிகவும் உகந்த முறையில் செய்ய மேம்பட்ட மாதிரிகளை ஒருங்கிணைக்கிறது. ஆரம்பத்தில், Segment Anything Model (SAM) போன்ற மாதிரிகள் ஆவணத்தின் தளவமைப்பு மற்றும் பட கூறுகளை துல்லியமாகப் பிரிக்கப் பயன்படுத்தப்படுகின்றன. அதே நேரத்தில், CLIP (கான்ட்ராஸ்டிவ் லாங்குவேஜ்-இமேஜ் முன் பயிற்சி) மாதிரியானது பக்கத்தின் உலகளாவிய சூழலைப் புரிந்துகொள்வதற்கு உத்தரவாதம் அளிக்கிறது. இந்த ஆரம்ப பகுப்பாய்விற்குப் பிறகு, 16 மடங்கு வரை உருவாக்கப்பட்ட டோக்கன்களின் எண்ணிக்கையைக் குறைக்க ஒரு கம்ப்ரசர் செயல்பாட்டிற்கு வருகிறது, இது கணினியின் செயல்திறனுக்கு உத்தரவாதம் அளிக்கிறது. இதன் விளைவாக, அனுமானத்தின் போது, ​​வெறும் 570 மில்லியன் அளவுருக்களை மட்டுமே செயல்படுத்துகிறது, ஒவ்வொரு பணிக்கும் மிகவும் பொருத்தமான நரம்பியல் “நிபுணர்களை” மாறும் வகையில் தேர்ந்தெடுக்கும் MoE (நிபுணர்களின் கலவை) குறிவிலக்கிக்கு நன்றி.

[[MVG_PROTECTED_BLOCK_0]

செயற்கை நுண்ணறிவு சமூகத்தில் ஏற்படும் விளைவுகள்

DeepSeek-OCR இன் வெளியீடு AI சமூகத்தில் உள்ள முக்கிய நபர்களிடமிருந்து உடனடி மற்றும் நேர்மறையான எதிர்வினைகளை உருவாக்கியது. OpenAI இன் இணை நிறுவனர் Andrej Karpathi, இந்த ஆய்வை பகிரங்கமாக பாராட்டினார்.

அவரது பகுப்பாய்வில், எல்எல்எம்களுக்கான உரை டோக்கன்களை விட பிக்சல்கள் மிகவும் திறமையான உள்ளீட்டு கருவியாக மாற முடியுமா என்ற அடிப்படை கேள்வியை கார்பதி எழுப்பினார்.

அவரது இடுகை, மொழி மாதிரிகளை முழுமையாகப் பயிற்றுவிக்க இந்த நுட்பத்தை விரிவுபடுத்துவதற்கான சாத்தியக்கூறுகள் குறித்து சிறப்பு மன்றங்களில் டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களிடையே ஒரு தீவிர விவாதத்தைத் தூண்டியது.

நடைமுறை பயன்பாடுகள் மற்றும் வணிக தாக்கம்

நிறுவன சூழலுக்கான DeepSeek-OCR இன் தாக்கங்கள் பரந்த மற்றும் மாற்றத்தக்கவை. இந்த தொழில்நுட்பத்தின் மூலம், நிறுவனங்கள் துண்டு துண்டான தூண்டுதல்களின் வரம்புகளை கடக்க முடியும்.

தொழில்நுட்ப ஆவணங்கள், தயாரிப்பு கையேடுகள் அல்லது மூலக் குறியீடு களஞ்சியங்கள் போன்ற முழு அறிவுத் தளங்களையும் AI உடனான ஒரு தொடர்பு மூலம் ஏற்றுவதற்கு இது உங்களை அனுமதிக்கிறது.

முன்னாள் அளவு முதலீட்டாளரான ஜெஃப்ரி இமானுவேல், மில்லியன் கணக்கான டோக்கன்களைக் கொண்ட தற்காலிக சேமிப்புகளை விரைவாக உருவாக்குவதற்கான தொழில்நுட்பத்தின் திறனைக் குறிப்பிட்டார், இது சிக்கலான நிறுவன வினவல்களுக்கான தாமதத்தை வெகுவாகக் குறைக்கும்.

கல்விக் கட்டுரைகள், செய்தித்தாள்கள் மற்றும் வருடாந்திர அறிக்கைகள் உட்பட ஒன்பது வெவ்வேறு வகையான PDF கோப்புகளைச் செயலாக்கும் திறன், பல வாரங்கள் கைமுறையாக வேலை செய்ய வேண்டிய பகுப்பாய்வுகளை விரைவுபடுத்துகிறது.

தொழில்நுட்ப சவால்கள் மற்றும் தொழில்நுட்பத்தின் எதிர்காலம்

தரவு சேமிப்பு மற்றும் புனரமைப்பில் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், DeepSeek-OCR இன்னும் வரம்புகளை எதிர்கொள்கிறது. தற்போது, ​​தொழில்நுட்பமானது பார்வைக்கு சுருக்கப்பட்ட உள்ளடக்கத்தின் மீது மேம்பட்ட பகுத்தறிவைக் காட்டிலும் உண்மையுள்ள தகவலை மீட்டெடுப்பதில் அதிக கவனம் செலுத்துகிறது.

நிஜ உலக ஆவணங்களில் தெளிவுத்திறன், வண்ணம் மற்றும் ஸ்கேன் தரத்தில் உள்ள மாறுபாடுகள் போன்ற நடைமுறைச் சவால்கள் துல்லியத்தை பாதிக்கலாம் மேலும் முழுமையாக சமாளிக்க கூடுதல் ஆராய்ச்சி தேவை.

பன்மொழி ஆதரவு மற்றும் ஆவண பல்துறை

DeepSeek-OCR இன் போட்டி வேறுபாடுகளில் ஒன்று அதன் பரந்த மொழியியல் திறன்கள் ஆகும், இது தோராயமாக 100 மொழிகளுக்கான ஆதரவை வழங்குகிறது. இது ஒரு உலகளாவிய கருவியாக மாற்றுகிறது, இது சர்வதேச நிறுவனங்கள் மற்றும் பன்னாட்டு ஆராய்ச்சி திட்டங்களுக்கு சேவை செய்யும் திறன் கொண்டது.

இந்த மாதிரியானது சீன மற்றும் ஆங்கிலத்தில் 30 மில்லியன் பக்கங்களைக் கொண்ட ஒரு பரந்த தரவுத்தொகுப்பில் பயிற்றுவிக்கப்பட்டது, இது வணிகம் மற்றும் அறிவியல் உலகில் அதிகம் பயன்படுத்தப்படும் மொழிகளில் வலிமை மற்றும் துல்லியத்திற்கு உத்தரவாதம் அளிக்கிறது. இந்த உலகளாவிய தன்மையானது, அசல் மொழி அல்லது வடிவத்தைப் பொருட்படுத்தாமல், பெரிய அறிவுக் களஞ்சியங்களின் பகுப்பாய்வை முடுக்கி, பல்வேறு வகையான ஆவணங்களுக்கு தொழில்நுட்பத்தைப் பயன்படுத்த அனுமதிக்கிறது.

To Top