புதிய DeepSeek தொழில்நுட்பத்துடன் AI உரையிலிருந்து பட சுருக்கமானது 97% துல்லியத்தை அடைகிறது

    Categories: News (TA)
DeepSeek

DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

சீன தொழில்நுட்ப நிறுவனமான டீப்சீக், பெரிய மொழி மாடல்களின் (எல்.எல்.எம்) மிகப்பெரிய தடைகளில் ஒன்றான சூழல் சாளர வரம்புகளை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு மாடலான டீப்சீக்-ஓ.சி.ஆர் வெளியீட்டின் மூலம் செயற்கை நுண்ணறிவு துறையில் குறிப்பிடத்தக்க புதுமையை அறிவித்தது. புதிய அணுகுமுறை உரையை காட்சிப் பிரதிநிதித்துவங்களாக மாற்றுகிறது, கணிசமான தகவலை இழக்காமல் பத்து மடங்கு வரை தரவு சுருக்கத்தை அனுமதிக்கிறது. இந்த நுட்பம், அசல் உள்ளடக்கத்தை மீட்டெடுப்பதில் 97% துல்லிய விகிதத்தைப் பராமரிக்கும் அதே வேளையில், AI அமைப்புகளுக்கு அதிக அளவு ஆவணங்களை விரைவாகவும் செலவு குறைந்ததாகவும் செயல்படுத்த உதவுகிறது. அக்டோபர் 20, 2025 அன்று தொழில்நுட்ப வெளியீட்டில் விவரிக்கப்பட்டுள்ள இந்த மேம்பாடு, கணக்கீட்டுச் செலவுகளில் அதிகரிப்பு இல்லாமல் பெரிய அளவிலான தரவு செயலாக்கத்திற்கான வளர்ந்து வரும் தேவைக்கு நேரடியாக பதிலளிக்கிறது.

டீப்சீக்-ஓசிஆர் தீர்க்க நோக்கமாகக் கொண்ட மையப் பிரச்சனையானது, எல்எல்எம்களின் வரையறுக்கப்பட்ட திறனான “நினைவில்” அல்லது தகவலைச் செயலாக்குவதுதான். உரையை கச்சிதமான படங்களாக மாற்றுவதன் மூலம், இந்த மாதிரிகளுக்கான தகவல்களின் அடிப்படை அலகுகளான உரை டோக்கன்களின் நீண்ட வரிசைகளை செயலாக்க வேண்டிய அவசியத்தை தொழில்நுட்பம் புறக்கணிக்கிறது. காட்சி டொமைனுக்கான இந்த மாற்றம் வள பயன்பாட்டை மேம்படுத்துவது மட்டுமல்லாமல், நிதி அறிக்கைகள், அறிவியல் கட்டுரைகள் மற்றும் மென்பொருள் மூலக் குறியீடுகள் போன்ற சிக்கலான ஆவணங்களை ஒருங்கிணைந்த மற்றும் திறமையான முறையில் பகுப்பாய்வு செய்வதற்கான புதிய சாத்தியக்கூறுகளையும் திறக்கிறது.

இந்த முறை அதன் செயல்திறனுக்காக தனித்து நிற்கிறது. ஒப்பீட்டு சோதனைகளில், ஒரு Nvidia A100 GPU ஐப் பயன்படுத்தி ஒரு நாளைக்கு 200,000 பக்கங்களுக்கு மேல் தரவை உருவாக்கும் திறன் கொண்டது என்பதை மாதிரி நிரூபித்தது, இது ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) மற்றும் ஆவணச் செயலாக்கப் பணிகளுக்கான புதிய செயல்திறன் தரநிலையை அமைக்கிறது. DeepSeek இன் புதுமையான அணுகுமுறையானது, நிதி, சட்டம் மற்றும் கல்வித்துறை போன்ற தீவிர ஆவணப் பகுப்பாய்வை நம்பியிருக்கும் தொழில்களில் AI-ஐ ஏற்றுக்கொள்வதை துரிதப்படுத்தலாம்.

செயற்கை நுண்ணறிவு – புகைப்படம்: Owlie Productions/ Shutterstock.com

காட்சி சுருக்கத்தின் பின்னால் உள்ள புதுமை

DeepSeek-OCR ஆனது இரண்டு-படி செயல்முறையின் அடிப்படையில் செயல்படுகிறது, இது AI அமைப்புகளால் உரைத் தகவல்களைக் கையாளும் விதத்தை தீவிரமாக மாற்றுகிறது. முதலாவதாக, மாதிரியானது உரை உள்ளீடுகளைப் பெறுகிறது மற்றும் டிஜிட்டல் திரையில் உள்ளடக்கத்தை “அச்சிடுவது” போல உள்நாட்டில் இரு பரிமாண படங்களாக மாற்றுகிறது. சிறப்பு காட்சி குறியாக்கிகள் இந்த படங்களை பகுப்பாய்வு செய்து அவற்றை மிகக் குறைந்த எண்ணிக்கையிலான காட்சி டோக்கன்களாக சுருக்குகின்றன. இந்த மூலோபாயம் கணினியின் செயல்திறனுக்கு அடிப்படையானது, ஏனெனில் இது செயலாக்கத்திற்குத் தேவையான கணக்கீட்டு சுமையை வெகுவாகக் குறைக்கிறது. ஒப்பிடுகையில், GOT-OCR2.0 போன்ற போட்டி மாடல்களுக்கு ஒரு பக்கத்தைச் செயலாக்க சுமார் 256 டோக்கன்கள் தேவைப்படுகின்றன, அதே சமயம் DeepSeek-OCR 100 காட்சி டோக்கன்களுடன் அதே பணியைச் செய்கிறது.

தொழில்நுட்பத்தின் அதிநவீன அம்சங்களில் ஒன்று, மனித நினைவகம் செயல்படும் விதத்தைப் பிரதிபலிக்கும் மாறி சுருக்க அமைப்பைச் செயல்படுத்துவதாகும். மாடல் அதிக தெளிவுத்திறனையும், அதன் விளைவாக, அதிக டோக்கன்களையும், மிகச் சமீபத்திய மற்றும் தொடர்புடைய சூழல்களுக்கு வழங்குகிறது, அதே சமயம் பழைய அல்லது குறைவான முன்னுரிமைத் தகவல்கள் குறைவான டோக்கன்களைப் பயன்படுத்தி குறைந்த விவரத்தில் சேமிக்கப்படும். இந்த டைனமிக் ஆதார ஒதுக்கீடு, நீண்ட கால சேமிப்பகத்தை மேம்படுத்தும் அதே வேளையில், தேவைப்படும் இடங்களில் துல்லியம் பராமரிக்கப்படுவதை உறுதி செய்கிறது. சுமார் 100 வெவ்வேறு மொழிகளைக் கையாளும் மற்றும் வரைபடங்கள், சிக்கலான அட்டவணைகள் மற்றும் வேதியியல் சூத்திரங்கள் போன்ற உரை அல்லாத கூறுகளைச் செயலாக்கும் மாடலின் திறன் நிஜ உலகக் காட்சிகளில் அதன் பொருந்தக்கூடிய தன்மையை மேலும் விரிவுபடுத்துகிறது, இது உலக அளவில் அறிவை டிஜிட்டல் மயமாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு பல்துறை கருவியாக அமைகிறது.

[[MVG_PROTECTED_BLOCK_0]

எண்ணிக்கையில் செயல்திறன் மற்றும் செயல்திறன்

DeepSeek-OCR இன் மேன்மையானது OmniDocBench போன்ற கடுமையான வரையறைகளில் சரிபார்க்கப்பட்டது, அங்கு அது அதிநவீன மாடல்களை கணிசமாக விஞ்சியது. ஒரு குறிப்பிடத்தக்க உதாரணம் MinerU0 உடனான ஒப்பீடு ஆகும், இது ஒரு ஆவணப் பக்கத்தை பகுப்பாய்வு செய்ய 6 ஆயிரத்துக்கும் மேற்பட்ட டோக்கன்களைப் பயன்படுத்துகிறது. இதற்கு மாறாக, DeepSeek இன் மாதிரியானது 800க்கும் குறைவான டோக்கன்களுடன் அதே பணியைச் செய்கிறது, இது வள நுகர்வில் கிட்டத்தட்ட 90% குறைப்பு. சுருக்க விகிதம் 20 மடங்காக அதிகரிக்கப்பட்டாலும், 60% துல்லியம் வீழ்ச்சியடைந்தாலும், மிக நீண்ட சூழல்களின் பகுப்பாய்வு தேவைப்படும் பயன்பாடுகளுக்கு தொழில்நுட்பம் இன்னும் சாத்தியமானதாக நிரூபிக்கிறது, இதில் நிமிட விவரத்தை விட மேலோட்டம் முக்கியமானது. இந்த செயல்திறன் செயலாக்கத்தை விரைவுபடுத்துவது மட்டுமல்லாமல், உற்பத்தி பகுப்பாய்வுகளின்படி, 90% ஐ எட்டக்கூடிய செயல்பாட்டு செலவு சேமிப்பையும் உருவாக்குகிறது. மாடலின் பல்துறை மற்றொரு வலுவான அம்சமாகும், இது நிதி அறிக்கைகள், விலைப்பட்டியல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகள் போன்ற ஒழுங்கற்ற தளவமைப்புகளுடன் ஆவணங்களைச் செயலாக்குவதற்கான அதன் திறனை நிரூபிக்கிறது, அத்துடன் மற்ற LLM களைப் பயிற்றுவிப்பதற்கான உயர்தர செயற்கைத் தரவை உருவாக்குகிறது, கிடைக்கக்கூடிய தரவுத்தொகுப்புகளை விரிவுபடுத்துகிறது. ஒவ்வொரு படத்திற்கும் 64 முதல் 400 டோக்கன்கள் வரையிலான மாறுபட்ட தெளிவுத்திறனுடன் இணக்கமானது, வெவ்வேறு பயன்பாட்டுத் தேவைகளுக்கு நெகிழ்வுத்தன்மையை உறுதி செய்கிறது.

செயற்கை நுண்ணறிவு சமூகத்தில் ஏற்படும் விளைவுகள்

DeepSeek-OCR இன் வெளியீடு AI சமூகத்தில் உள்ள முக்கிய நபர்களிடமிருந்து உடனடி மற்றும் நேர்மறையான எதிர்வினைகளை உருவாக்கியது. OpenAI இன் இணை நிறுவனர் மற்றும் துறையில் மிகவும் மதிக்கப்படும் குரல்களில் ஒருவரான Andrej Karpathi, ஆராய்ச்சியை பொதுவில் பாராட்டினார், ஒரு அடிப்படை கேள்வியை எழுப்பினார்: எல்எல்எம்களுக்கான உரை டோக்கன்களை விட பிக்சல்கள் மிகவும் திறமையான உள்ளீடாக மாறுமா.

அவரது பகுப்பாய்வில், நினைவக பயன்பாடு மற்றும் வேகத்தின் அடிப்படையில் சாத்தியமான நன்மைகளை உயர்த்தி, செயலாக்கத்தை மேம்படுத்த, அனைத்து உரைகளையும் ஒரு படமாக வழங்குவதற்கான சாத்தியத்தை கர்பதி பரிந்துரைத்தார். மொழி மாதிரிகளை முழுமையாகப் பயிற்றுவிக்க இந்த நுட்பத்தை விரிவுபடுத்துவதற்கான சாத்தியக்கூறுகள் குறித்து சிறப்பு மன்றங்களில் டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களிடையே தீவிர விவாதத்தை அவரது இடுகை தூண்டியது.

திறந்த மூல சமூகத்தின் உற்சாகம் தெளிவாகத் தெரிந்தது, GitHub இல் திட்டம் அறிவிக்கப்பட்ட 24 மணி நேரத்திற்குள் 4,000 க்கும் மேற்பட்ட நட்சத்திரங்களைத் திரட்டியது. இந்த விரைவான ஈடுபாடு, தொழில்நுட்பத்தை பரிசோதனை செய்து மாற்றியமைப்பதில் வலுவான ஆர்வத்தைக் குறிக்கிறது, இது உலகெங்கிலும் உள்ள டெவலப்பர்கள் மற்றும் நிறுவனங்களால் சாத்தியமான விரைவான தத்தெடுப்பைக் குறிக்கிறது.

நடைமுறை பயன்பாடுகள் மற்றும் வணிக தாக்கம்

நிறுவன சூழலுக்கான DeepSeek-OCR இன் தாக்கங்கள் பரந்த மற்றும் மாற்றத்தக்கவை. இந்தத் தொழில்நுட்பத்தின் மூலம், தொழில்நுட்ப ஆவணங்கள், தயாரிப்பு கையேடுகள் அல்லது மூலக் குறியீடு களஞ்சியங்கள் போன்ற முழு அறிவுத் தளங்களையும் ஒரே AI தொடர்புகளில் ஏற்றுவதற்கு நிறுவனங்கள் அனுமதிப்பதன் மூலம் துண்டு துண்டான தூண்டுதல்களின் வரம்புகளைக் கடக்க முடியும். இது தொடர்ச்சியான தேடல்களின் தேவையை நீக்குகிறது மேலும் முழுமையான மற்றும் சூழல் சார்ந்த பகுப்பாய்வுகளை அனுமதிக்கிறது.

முன்னாள் அளவு முதலீட்டாளரான ஜெஃப்ரி இமானுவேல், மில்லியன் கணக்கான டோக்கன்களுடன் உடனடி தற்காலிக சேமிப்பை உருவாக்கும் தொழில்நுட்பத்தின் திறனை உயர்த்தி காட்டினார், இது சிக்கலான நிறுவன வினவல்களில் தாமதத்தை வெகுவாகக் குறைக்கும். கல்விக் கட்டுரைகள், செய்தித்தாள்கள் மற்றும் வருடாந்திர அறிக்கைகள் உட்பட ஒன்பது வெவ்வேறு வகையான PDFகளை செயலாக்கும் திறன், முன்னர் பல வாரங்கள் கைமுறையாக வேலை செய்ய வேண்டிய பகுப்பாய்வுகளை விரைவுபடுத்துகிறது, மூலோபாய நுண்ணறிவுகளில் கவனம் செலுத்த குழுக்களை விடுவிக்கிறது.

டீப்என்கோடரின் தொழில்நுட்ப வழிமுறை

DeepSeek-OCR இன் செயல்பாட்டின் பின்னணியில் உள்ள கட்டமைப்பு அதன் DeepEncoder கூறுகளை மையமாகக் கொண்டது. இந்த மென்பொருள் பொறியியலில் குறிப்பிட்ட பணிகளை மிகவும் உகந்த முறையில் செய்ய மேம்பட்ட மாதிரிகளை ஒருங்கிணைக்கிறது.

ஆரம்பத்தில், செக்மென்ட் எனிதிங் மாடல் (எஸ்ஏஎம்) போன்ற மாதிரிகள், ஆவணப் படத்தில் உள்ள தளவமைப்பு மற்றும் உறுப்புகளின் துல்லியமான பிரிவுக்காகப் பயன்படுத்தப்படுகின்றன. இணையாக, CLIP (கான்ட்ராஸ்டிவ் லாங்குவேஜ்-இமேஜ் முன் பயிற்சி) மாதிரியானது பக்கத்தின் உலகளாவிய சூழலைப் பற்றிய புரிதலை வழங்குகிறது.

இந்த ஆரம்ப பகுப்பாய்விற்குப் பிறகு, ஒரு கம்ப்ரசர் செயல்பாட்டிற்கு வருகிறது, டோக்கன்களின் எண்ணிக்கையை 16 மடங்கு வரை குறைக்கிறது. இந்த ஆக்கிரமிப்பு சுருக்கமானது கணினியை திறம்படச் செய்ய அனுமதிக்கிறது, இது பின்வரும் படிகளில் செயலாக்கப்பட வேண்டிய தரவு சுமையைக் குறைக்கிறது.

இதன் விளைவாக, அனுமானத்தின் போது வெறும் 570 மில்லியன் அளவுருக்களை செயல்படுத்தும் ஒரு கட்டமைப்பாகும், ஒவ்வொரு பணிக்கும் மிகவும் பொருத்தமான நரம்பியல் “நிபுணர்களை” மாறும் வகையில் தேர்ந்தெடுக்கும் MoE (நிபுணர்களின் கலவை) குறிவிலக்கிக்கு நன்றி. இந்த புத்திசாலித்தனமான வடிவமைப்பு, A100 GPUகள் கொண்ட 20-நோட் கிளஸ்டரில் ஒரு நாளைக்கு 33 மில்லியன் பக்கங்களை பகுப்பாய்வு செய்யும் திறனுடன், மிக விரைவான செயலாக்கத்தை செயல்படுத்துகிறது.

தொழில்நுட்ப சவால்கள் மற்றும் தொழில்நுட்பத்தின் எதிர்காலம்

தரவு சேமிப்பு மற்றும் புனரமைப்பு ஆகியவற்றில் அதன் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், DeepSeek-OCR இன்னும் வரம்புகளை எதிர்கொள்கிறது. தொழில்நுட்பத்தின் தற்போதைய கவனம் பார்வை சுருக்கப்பட்ட உள்ளடக்கத்தைப் பற்றிய மேம்பட்ட பகுத்தறிவைக் காட்டிலும் உண்மையுள்ள தகவலை மீட்டெடுப்பதில் அதிக கவனம் செலுத்துகிறது. நிஜ உலக ஆவணங்களில் தெளிவுத்திறன், வண்ணம் மற்றும் ஸ்கேன் தரத்தில் உள்ள மாறுபாடுகள் போன்ற நடைமுறைச் சவால்கள் துல்லியத்தை பாதிக்கலாம் மற்றும் முழுமையாக சமாளிக்க கூடுதல் ஆராய்ச்சி தேவை.

ஆராய்ச்சியின் அடுத்த படிகள், டிஜிட்டல் மற்றும் ஆப்டிகல் உரையின் இடைப்பட்ட முன் பயிற்சியை உள்ளடக்கியது, இரண்டு வடிவங்களையும் சொந்தமாகப் புரிந்துகொள்ளும் மாதிரியின் திறனை மேம்படுத்த முயல்கிறது. பெரிய அளவிலான தரவுகளிலிருந்து குறிப்பிட்ட தகவலை மீட்டெடுப்பதில் துல்லியத்தை அளவிட, “நீடில்-இன்-எ-ஹேஸ்டாக்” சோதனைகள் போன்ற மிகவும் சிக்கலான மதிப்பீடுகளைச் செய்யவும் குழு திட்டமிட்டுள்ளது. திறந்த மூல வடிவத்தில் மாதிரியை வெளியிடுவது, இயற்கையான படங்கள் மற்றும் சிக்கலான வடிவியல் புள்ளிவிவரங்களை செயலாக்க தொழில்நுட்பத்தை விரிவுபடுத்துவதற்கான எதிர்காலத் திட்டங்களுடன், தழுவல்கள் மற்றும் மேம்பாடுகளை பங்களிப்பதற்கான உலகளாவிய சமூகத்திற்கான அழைப்பாகும்.

பன்மொழி ஆதரவு மற்றும் ஆவண பல்துறை

DeepSeek-OCR இன் போட்டி வேறுபாடுகளில் ஒன்று அதன் பரந்த மொழியியல் திறன்கள் ஆகும், இது சுமார் 100 மொழிகளுக்கான ஆதரவை வழங்குகிறது. இது ஒரு உலகளாவிய கருவியாக மாற்றுகிறது, பன்னாட்டு நிறுவனங்கள் மற்றும் சர்வதேச ஆராய்ச்சி திட்டங்களுக்கு சேவை செய்யும் திறன் கொண்டது. சீன மற்றும் ஆங்கிலத்தில் 30 மில்லியன் பக்கங்களைக் கொண்ட பரந்த தரவுத்தொகுப்புடன் இந்த மாதிரி பயிற்சியளிக்கப்பட்டது, இது வணிகம் மற்றும் அறிவியல் உலகில் அதிகம் பயன்படுத்தப்படும் மொழிகளில் வலிமை மற்றும் துல்லியத்திற்கு உத்தரவாதம் அளிக்கிறது. அசல் மொழி அல்லது வடிவத்தைப் பொருட்படுத்தாமல், பெரிய அறிவுக் களஞ்சியங்களின் பகுப்பாய்வை முடுக்கி, பலதரப்பட்ட ஆவணங்களுக்கு தொழில்நுட்பத்தைப் பயன்படுத்த இந்த பல்துறை அனுமதிக்கிறது.