News (TA)

DeepSeek இன் புதிய AI உரையை படமாக மாற்றுகிறது மற்றும் 97% துல்லியத்துடன் தரவு சுருக்கத்தை அடைகிறது

Por Redação

Publicado em 8 de janeiro de 2026

DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

Siga o Mix Vale no GoogleVeja as notícias do Mundo com destaque nas buscas do GoogleAdicionar

சீன தொழில்நுட்ப நிறுவனமான டீப்சீக், பெரிய மொழி மாடல்களின் (எல்.எல்.எம்) மிகப்பெரிய தடைகளில் ஒன்றான சூழல் சாளர வரம்புகளை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு மாடலான டீப்சீக்-ஓ.சி.ஆர் வெளியீட்டின் மூலம் செயற்கை நுண்ணறிவு துறையில் குறிப்பிடத்தக்க புதுமையை அறிவித்தது. புதிய அணுகுமுறை உரையை காட்சிப் பிரதிநிதித்துவமாக மாற்றுகிறது, கணிசமான தகவல் இழப்பு இல்லாமல் பத்து மடங்கு அதிக தரவு சுருக்கத்தை அனுமதிக்கிறது.

இந்த நுட்பம், அசல் உள்ளடக்கத்தை மீட்டெடுப்பதில் 97% துல்லியத்தை பராமரிக்கும் அதே வேளையில், AI அமைப்புகளை மிக விரைவாகவும் செலவு குறைந்ததாகவும் ஆவணங்களின் பாரிய அளவுகளை செயலாக்க அனுமதிக்கிறது. தொழில்நுட்பக் கட்டுரையில் விவரிக்கப்பட்டுள்ள மேம்பாடு, பெரிய அளவிலான தரவு செயலாக்கத்திற்கான வளர்ந்து வரும் தேவைக்கு, அதன் விளைவாக கணக்கீட்டுச் செலவுகள் அதிகரிக்காமல் நேரடியாக பதிலளிக்கிறது.

DeepSeek-OCR தீர்க்க நோக்கமாகக் கொண்ட முக்கிய பிரச்சனை, எல்எல்எம்களின் வரையறுக்கப்பட்ட திறனான “நினைவில் கொள்ள” அல்லது தகவலைச் செயலாக்குகிறது. உரையை கச்சிதமான படங்களாக மாற்றுவதன் மூலம், இந்த மாதிரிகளுக்கான தகவல்களின் அடிப்படை அலகுகளான உரை டோக்கன்களின் நீண்ட வரிசைகளை செயலாக்க வேண்டியதன் அவசியத்தை தொழில்நுட்பம் புறக்கணிக்கிறது, வளங்களின் பயன்பாட்டை மேம்படுத்துகிறது மற்றும் சிக்கலான ஆவணங்களை பகுப்பாய்வு செய்வதற்கான புதிய சாத்தியங்களைத் திறக்கிறது.

Inteligência Artificial — செயற்கை நுண்ணறிவு – புகைப்படம்: Owlie Productions/ Shutterstock.com

காட்சி சுருக்கத்தின் பின்னால் உள்ள புதுமை

DeepSeek-OCR ஆனது இரண்டு-படி செயல்முறையுடன் செயல்படுகிறது, இது AI அமைப்புகளால் உரைத் தகவல் எவ்வாறு கையாளப்படுகிறது என்பதைத் தீவிரமாக மாற்றுகிறது. முதலாவதாக, மாதிரியானது உள்ளீட்டு உரையைப் பெற்று, டிஜிட்டல் திரையில் உள்ளடக்கத்தை “அச்சிடுவது” போல, உள்நாட்டில் இரு பரிமாணப் படங்களாக மாற்றுகிறது. சிறப்பு காட்சி குறியாக்கிகள் இந்த படங்களை பகுப்பாய்வு செய்து அவற்றை மிகக் குறைந்த எண்ணிக்கையிலான காட்சி டோக்கன்களாக சுருக்குகின்றன. இந்த மூலோபாயம் கணினியின் செயல்திறனுக்கு அடிப்படையானது, ஏனெனில் இது செயலாக்கத்திற்குத் தேவையான கணக்கீட்டு சுமையை வெகுவாகக் குறைக்கிறது. ஒப்பிடுகையில், GOT-OCR2.0 போன்ற போட்டி மாடல்களுக்கு ஒரு பக்கத்தைச் செயலாக்க சுமார் 256 டோக்கன்கள் தேவைப்படுகின்றன, அதே சமயம் DeepSeek-OCR 100 காட்சி டோக்கன்களுடன் அதே பணியைச் செய்கிறது, இது 60% க்கும் அதிகமான மேம்படுத்தலைக் குறிக்கிறது.

இந்த தொழில்நுட்பத்தின் அதிநவீன அம்சங்களில் ஒன்று மனித நினைவகத்தின் செயல்பாட்டைப் பின்பற்றும் மாறி சுருக்க அமைப்பை செயல்படுத்துவதாகும். மாடல் அதிக தெளிவுத்திறனை வழங்குகிறது, அதன் விளைவாக, மிக சமீபத்திய மற்றும் தொடர்புடைய சூழல்களுக்கு அதிக டோக்கன்களை வழங்குகிறது, அதே நேரத்தில் பழைய அல்லது குறைவான முன்னுரிமைத் தகவல் குறைந்த விவரங்களில் சேமிக்கப்பட்டு குறைவான டோக்கன்களைப் பயன்படுத்துகிறது. இந்த டைனமிக் ஆதார ஒதுக்கீடு, நீண்ட கால சேமிப்பகத்தை மேம்படுத்தும் அதே வேளையில், தேவைப்படும் இடங்களில் துல்லியம் பராமரிக்கப்படுவதை உறுதி செய்கிறது. ஏறக்குறைய 100 வெவ்வேறு மொழிகளைக் கையாளும் மற்றும் வரைபடங்கள், சிக்கலான அட்டவணைகள் மற்றும் வேதியியல் சூத்திரங்கள் போன்ற உரை அல்லாத கூறுகளைச் செயலாக்கும் மாடலின் திறன், நிஜ உலகக் காட்சிகளில் அதன் பொருந்தக்கூடிய தன்மையை மேலும் விரிவுபடுத்துகிறது, இது உலக அளவில் அறிவை டிஜிட்டல் மயமாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு பல்துறை கருவியாக அமைகிறது.

[[MVG_PROTECTED_BLOCK_0]

எண்ணிக்கையில் செயல்திறன் மற்றும் செயல்திறன்

DeepSeek-OCR இன் மேன்மையானது OmniDocBench போன்ற கடுமையான பெஞ்ச்மார்க் சோதனைகளில் சரிபார்க்கப்பட்டது, அங்கு இது அதிநவீன மாடல்களை கணிசமாக விஞ்சியது. ஒரு குறிப்பிடத்தக்க உதாரணம் MinerU உடனான ஒப்பீடு ஆகும், இது ஒரு ஆவணப் பக்கத்தை பகுப்பாய்வு செய்ய 6 ஆயிரத்துக்கும் மேற்பட்ட டோக்கன்களைப் பயன்படுத்துகிறது. இதற்கு நேர்மாறாக, DeepSeek மாதிரியானது 800க்கும் குறைவான டோக்கன்களைப் பயன்படுத்தி அதே பணியைச் செய்கிறது, இது வள நுகர்வில் கிட்டத்தட்ட 90% குறைப்பைக் குறிக்கிறது. சுருக்க விகிதம் 20 மடங்கு அதிகரிக்கப்பட்டாலும், துல்லியத்தில் 60% வீழ்ச்சி ஏற்பட்டாலும், மிக நீண்ட சூழல்களின் பகுப்பாய்வு தேவைப்படும் பயன்பாடுகளுக்கு தொழில்நுட்பம் இன்னும் சாத்தியமானதாக நிரூபிக்கிறது, இதில் நிமிட விவரங்களை விட மேலோட்டம் முக்கியமானது. இந்த செயல்திறன் செயலாக்கத்தை விரைவுபடுத்துவது மட்டுமல்லாமல், செயல்பாட்டுச் செலவுகளில் சேமிப்பையும் உருவாக்குகிறது, இது உற்பத்தி பகுப்பாய்வுகளின்படி 90% ஐ அடையலாம். மாடலின் பல்துறை மற்றொரு வலுவான அம்சமாகும், இது நிதி அறிக்கைகள், விலைப்பட்டியல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகள் போன்ற ஒழுங்கற்ற தளவமைப்புகளுடன் ஆவணங்களை செயலாக்கும் திறனை நிரூபிக்கிறது, அத்துடன் மற்ற LLM களுக்கு பயிற்சியளிக்க உயர்தர செயற்கைத் தரவை உருவாக்குகிறது, கிடைக்கக்கூடிய தரவு தொகுப்புகளை விரிவுபடுத்துகிறது. ஒரு படத்திற்கு 64 முதல் 400 டோக்கன்கள் வரை வெவ்வேறு தீர்மானங்களுடன் இணக்கமானது, பல்வேறு பயன்பாட்டுத் தேவைகளுக்கு நெகிழ்வுத்தன்மையை உறுதி செய்கிறது.

செயற்கை நுண்ணறிவு சமூகத்தில் ஏற்படும் விளைவுகள்

DeepSeek-OCR இன் வெளியீடு AI சமூகத்தில் உள்ள முக்கிய நபர்களிடமிருந்து உடனடி மற்றும் நேர்மறையான எதிர்வினைகளை உருவாக்கியது. OpenAI இன் இணை நிறுவனர் மற்றும் துறையில் மிகவும் மதிக்கப்படும் குரல்களில் ஒருவரான Andrej Karpathi, ஆராய்ச்சியை பொதுவில் பாராட்டினார்.

[[MVG_PROTECTED_BLOCK_0]

அவரது பகுப்பாய்வில், எல்எல்எம்களுக்கான உரை டோக்கன்களை விட பிக்சல்கள் மிகவும் திறமையான உள்ளீட்டு கருவியாக மாற முடியுமா என்ற அடிப்படை கேள்வியை கார்பதி எழுப்பினார், செயலாக்கத்தை மேம்படுத்த அனைத்து உரைகளையும் ஒரு படமாக வழங்குவதற்கான சாத்தியத்தை பரிந்துரைத்தார்.

மொழி மாதிரிகளை முழுமையாகப் பயிற்றுவிப்பதற்கு இந்த நுட்பத்தை விரிவுபடுத்துவதற்கான சாத்தியக்கூறுகள் குறித்து சிறப்பு மன்றங்களில் டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களிடையே இந்த இடுகை தீவிர விவாதத்தைத் தூண்டியது, நினைவக பயன்பாடு மற்றும் வேகத்தின் அடிப்படையில் சாத்தியமான நன்மைகளை எடுத்துக்காட்டுகிறது.

திறந்த மூல சமூகத்தின் உற்சாகம் தெளிவாகத் தெரிந்தது, GitHub இல் திட்டம் அறிவிக்கப்பட்ட 24 மணி நேரத்திற்குள் 4,000 நட்சத்திரங்களுக்கு மேல் குவிந்து, தொழில்நுட்பத்தை பரிசோதித்து மாற்றியமைப்பதில் வலுவான ஆர்வத்தைக் குறிக்கிறது.

நடைமுறை பயன்பாடுகள் மற்றும் வணிக தாக்கம்

நிறுவன சூழலுக்கான DeepSeek-OCR இன் தாக்கங்கள் பரந்த மற்றும் மாற்றத்தக்கவை. இந்தத் தொழில்நுட்பத்தின் மூலம், தொழில்நுட்ப ஆவணங்கள், தயாரிப்பு கையேடுகள் அல்லது மூலக் குறியீடு களஞ்சியங்கள் போன்ற முழு அறிவுத் தளங்களையும் ஒரே AI தொடர்புகளில் ஏற்றுவதற்கு நிறுவனங்கள் அனுமதிப்பதன் மூலம் துண்டு துண்டான தூண்டுதல்களின் வரம்புகளைக் கடக்க முடியும்.

இது தொடர் தேடல்களின் தேவையை நீக்குகிறது மேலும் முழுமையான மற்றும் சூழல் சார்ந்த பகுப்பாய்வை அனுமதிக்கிறது. முன்னாள் அளவு முதலீட்டாளரான ஜெஃப்ரி இமானுவேல், மில்லியன் கணக்கான டோக்கன்களைக் கொண்ட தற்காலிக சேமிப்புகளை விரைவாக உருவாக்குவதற்கான தொழில்நுட்பத்தின் திறனைக் குறிப்பிட்டார், இது சிக்கலான நிறுவன வினவல்களுக்கான தாமதத்தை வெகுவாகக் குறைக்கும், மேலும் பல வாரங்கள் கைமுறையாக வேலை செய்ய வேண்டிய பகுப்பாய்வுகளை துரிதப்படுத்தும்.

டீப்என்கோடரின் தொழில்நுட்ப வழிமுறை

DeepSeek-OCR இன் செயல்திறனுக்குப் பின்னால் உள்ள கட்டமைப்பு DeepEncoder கூறுகளை மையமாகக் கொண்டது. இந்த மென்பொருள் பொறியியல் குறிப்பிட்ட பணிகளை மிகவும் உகந்த முறையில் செய்ய மேம்பட்ட மாதிரிகளை ஒருங்கிணைக்கிறது.

ஆரம்பத்தில், Segment Anything Model (SAM) போன்ற மாதிரிகள் ஆவணத்தின் தளவமைப்பு மற்றும் பட கூறுகளை துல்லியமாகப் பிரிக்கப் பயன்படுத்தப்படுகின்றன.

அதே நேரத்தில், CLIP (கான்ட்ராஸ்டிவ் லாங்குவேஜ்-இமேஜ் முன் பயிற்சி) மாதிரியானது பக்கத்தின் உலகளாவிய சூழலைப் புரிந்துகொள்வதற்கு உத்தரவாதம் அளிக்கிறது.

இந்த ஆரம்ப பகுப்பாய்விற்குப் பிறகு, ஒரு கம்ப்ரசர் செயல்பாட்டிற்கு வருகிறது, டோக்கன்களின் எண்ணிக்கையை 16 மடங்கு வரை குறைக்கிறது, இது கணினி செயல்திறனுக்கு உத்தரவாதம் அளிக்கிறது மற்றும் பின்வரும் படிகளில் செயலாக்கப்பட வேண்டிய தரவு சுமையை குறைக்கிறது.

தொழில்நுட்ப சவால்கள் மற்றும் தொழில்நுட்பத்தின் எதிர்காலம்

தரவு சேமிப்பு மற்றும் புனரமைப்பு ஆகியவற்றில் அதன் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், DeepSeek-OCR இன்னும் வரம்புகளை எதிர்கொள்கிறது. தற்போது, தொழில்நுட்பமானது பார்வைக்கு சுருக்கப்பட்ட உள்ளடக்கத்தைப் பற்றிய மேம்பட்ட பகுத்தறிவைக் காட்டிலும் நம்பகமான தகவலை மீட்டெடுப்பதில் அதிக கவனம் செலுத்துகிறது.

நிஜ உலக ஆவணங்களில் தெளிவுத்திறன், வண்ணம் மற்றும் ஸ்கேன் தரத்தில் உள்ள மாறுபாடுகள் போன்ற நடைமுறைச் சவால்கள் துல்லியத்தை பாதிக்கலாம் மேலும் முழுமையாக சமாளிக்க கூடுதல் ஆராய்ச்சி தேவை. ஆராய்ச்சியின் அடுத்த படிகளில் டிஜிட்டல் மற்றும் ஆப்டிகல் உரையின் இடைப்பட்ட முன் பயிற்சி ஆகியவை அடங்கும், இது இரண்டு வடிவங்களையும் சொந்தமாக புரிந்து கொள்ளும் மாதிரியின் திறனை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளது.

பன்மொழி ஆதரவு மற்றும் பல்துறை

DeepSeek-OCR இன் போட்டி வேறுபாடுகளில் ஒன்று அதன் பரந்த மொழியியல் திறன்கள் ஆகும், இது சுமார் 100 மொழிகளுக்கான ஆதரவை வழங்குகிறது. இது ஒரு உலகளாவிய கருவியாக மாற்றுகிறது, இது சர்வதேச நிறுவனங்கள் மற்றும் பன்னாட்டு ஆராய்ச்சி திட்டங்களுக்கு சேவை செய்யும் திறன் கொண்டது. இந்த மாதிரியானது, சீன மற்றும் ஆங்கிலத்தில் 30 மில்லியன் பக்கங்களைக் கொண்ட ஒரு பரந்த தரவுத்தொகுப்பில் பயிற்சியளிக்கப்பட்டது, வணிகம் மற்றும் அறிவியல் உலகில் அதிகம் பயன்படுத்தப்படும் மொழிகளில் வலிமை மற்றும் துல்லியத்தை உறுதி செய்கிறது.

TagOCR, செயற்கை நுண்ணறிவு, டீப்சீக், தரவு சுருக்கம், மொழி மாதிரிகள்