புதிய DeepSeek தொழில்நுட்பத்துடன் AI உரையிலிருந்து பட சுருக்கமானது 97% துல்லியத்தை அடைகிறது

Redação

em 4 de janeiro de 2026

Categories: News (TA)

Siga o Mix Vale no GoogleVeja as notícias do Mundo com destaque nas buscas do GoogleAdicionar

சீன தொழில்நுட்ப நிறுவனமான டீப்சீக், பெரிய மொழி மாடல்களின் (எல்.எல்.எம்) மிகப்பெரிய தடைகளில் ஒன்றான சூழல் சாளர வரம்புகளை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு மாடலான டீப்சீக்-ஓ.சி.ஆர் வெளியீட்டின் மூலம் செயற்கை நுண்ணறிவு துறையில் குறிப்பிடத்தக்க புதுமையை அறிவித்தது. புதிய அணுகுமுறை உரையை காட்சிப் பிரதிநிதித்துவங்களாக மாற்றுகிறது, கணிசமான தகவலை இழக்காமல் பத்து மடங்கு வரை தரவு சுருக்கத்தை அனுமதிக்கிறது. இந்த நுட்பம், அசல் உள்ளடக்கத்தை மீட்டெடுப்பதில் 97% துல்லிய விகிதத்தைப் பராமரிக்கும் அதே வேளையில், AI அமைப்புகளுக்கு அதிக அளவு ஆவணங்களை விரைவாகவும் செலவு குறைந்ததாகவும் செயல்படுத்த உதவுகிறது. அக்டோபர் 20, 2025 அன்று தொழில்நுட்ப வெளியீட்டில் விவரிக்கப்பட்டுள்ள இந்த மேம்பாடு, கணக்கீட்டுச் செலவுகளில் அதிகரிப்பு இல்லாமல் பெரிய அளவிலான தரவு செயலாக்கத்திற்கான வளர்ந்து வரும் தேவைக்கு நேரடியாக பதிலளிக்கிறது.

டீப்சீக்-ஓசிஆர் தீர்க்க நோக்கமாகக் கொண்ட மையப் பிரச்சனையானது, எல்எல்எம்களின் வரையறுக்கப்பட்ட திறனான “நினைவில்” அல்லது தகவலைச் செயலாக்குவதுதான். உரையை கச்சிதமான படங்களாக மாற்றுவதன் மூலம், இந்த மாதிரிகளுக்கான தகவல்களின் அடிப்படை அலகுகளான உரை டோக்கன்களின் நீண்ட வரிசைகளை செயலாக்க வேண்டிய அவசியத்தை தொழில்நுட்பம் புறக்கணிக்கிறது. காட்சி டொமைனுக்கான இந்த மாற்றம் வள பயன்பாட்டை மேம்படுத்துவது மட்டுமல்லாமல், நிதி அறிக்கைகள், அறிவியல் கட்டுரைகள் மற்றும் மென்பொருள் மூலக் குறியீடுகள் போன்ற சிக்கலான ஆவணங்களை ஒருங்கிணைந்த மற்றும் திறமையான முறையில் பகுப்பாய்வு செய்வதற்கான புதிய சாத்தியக்கூறுகளையும் திறக்கிறது.

இந்த முறை அதன் செயல்திறனுக்காக தனித்து நிற்கிறது. ஒப்பீட்டு சோதனைகளில், ஒரு Nvidia A100 GPU ஐப் பயன்படுத்தி ஒரு நாளைக்கு 200,000 பக்கங்களுக்கு மேல் தரவை உருவாக்கும் திறன் கொண்டது என்பதை மாதிரி நிரூபித்தது, இது ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) மற்றும் ஆவணச் செயலாக்கப் பணிகளுக்கான புதிய செயல்திறன் தரநிலையை அமைக்கிறது. DeepSeek இன் புதுமையான அணுகுமுறையானது, நிதி, சட்டம் மற்றும் கல்வித்துறை போன்ற தீவிர ஆவணப் பகுப்பாய்வை நம்பியிருக்கும் தொழில்களில் AI-ஐ ஏற்றுக்கொள்வதை துரிதப்படுத்தலாம்.

செயற்கை நுண்ணறிவு – புகைப்படம்: Owlie Productions/ Shutterstock.com

காட்சி சுருக்கத்தின் பின்னால் உள்ள புதுமை

DeepSeek-OCR ஆனது இரண்டு-படி செயல்முறையின் அடிப்படையில் செயல்படுகிறது, இது AI அமைப்புகளால் உரைத் தகவல்களைக் கையாளும் விதத்தை தீவிரமாக மாற்றுகிறது. முதலாவதாக, மாதிரியானது உரை உள்ளீடுகளைப் பெறுகிறது மற்றும் டிஜிட்டல் திரையில் உள்ளடக்கத்தை “அச்சிடுவது” போல உள்நாட்டில் இரு பரிமாண படங்களாக மாற்றுகிறது. சிறப்பு காட்சி குறியாக்கிகள் இந்த படங்களை பகுப்பாய்வு செய்து அவற்றை மிகக் குறைந்த எண்ணிக்கையிலான காட்சி டோக்கன்களாக சுருக்குகின்றன. இந்த மூலோபாயம் கணினியின் செயல்திறனுக்கு அடிப்படையானது, ஏனெனில் இது செயலாக்கத்திற்குத் தேவையான கணக்கீட்டு சுமையை வெகுவாகக் குறைக்கிறது. ஒப்பிடுகையில், GOT-OCR2.0 போன்ற போட்டி மாடல்களுக்கு ஒரு பக்கத்தைச் செயலாக்க சுமார் 256 டோக்கன்கள் தேவைப்படுகின்றன, அதே சமயம் DeepSeek-OCR 100 காட்சி டோக்கன்களுடன் அதே பணியைச் செய்கிறது.

தொழில்நுட்பத்தின் அதிநவீன அம்சங்களில் ஒன்று, மனித நினைவகம் செயல்படும் விதத்தைப் பிரதிபலிக்கும் மாறி சுருக்க அமைப்பைச் செயல்படுத்துவதாகும். மாடல் அதிக தெளிவுத்திறனையும், அதன் விளைவாக, அதிக டோக்கன்களையும், மிகச் சமீபத்திய மற்றும் தொடர்புடைய சூழல்களுக்கு வழங்குகிறது, அதே சமயம் பழைய அல்லது குறைவான முன்னுரிமைத் தகவல்கள் குறைவான டோக்கன்களைப் பயன்படுத்தி குறைந்த விவரத்தில் சேமிக்கப்படும். இந்த டைனமிக் ஆதார ஒதுக்கீடு, நீண்ட கால சேமிப்பகத்தை மேம்படுத்தும் அதே வேளையில், தேவைப்படும் இடங்களில் துல்லியம் பராமரிக்கப்படுவதை உறுதி செய்கிறது. சுமார் 100 வெவ்வேறு மொழிகளைக் கையாளும் மற்றும் வரைபடங்கள், சிக்கலான அட்டவணைகள் மற்றும் வேதியியல் சூத்திரங்கள் போன்ற உரை அல்லாத கூறுகளைச் செயலாக்கும் மாடலின் திறன் நிஜ உலகக் காட்சிகளில் அதன் பொருந்தக்கூடிய தன்மையை மேலும் விரிவுபடுத்துகிறது, இது உலக அளவில் அறிவை டிஜிட்டல் மயமாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் ஒரு பல்துறை கருவியாக அமைகிறது.

[[MVG_PROTECTED_BLOCK_0]

எண்ணிக்கையில் செயல்திறன் மற்றும் செயல்திறன்

DeepSeek-OCR இன் மேன்மையானது OmniDocBench போன்ற கடுமையான வரையறைகளில் சரிபார்க்கப்பட்டது, அங்கு அது அதிநவீன மாடல்களை கணிசமாக விஞ்சியது. ஒரு குறிப்பிடத்தக்க உதாரணம் MinerU0 உடனான ஒப்பீடு ஆகும், இது ஒரு ஆவணப் பக்கத்தை பகுப்பாய்வு செய்ய 6 ஆயிரத்துக்கும் மேற்பட்ட டோக்கன்களைப் பயன்படுத்துகிறது. இதற்கு மாறாக, DeepSeek இன் மாதிரியானது 800க்கும் குறைவான டோக்கன்களுடன் அதே பணியைச் செய்கிறது, இது வள நுகர்வில் கிட்டத்தட்ட 90% குறைப்பு. சுருக்க விகிதம் 20 மடங்காக அதிகரிக்கப்பட்டாலும், 60% துல்லியம் வீழ்ச்சியடைந்தாலும், மிக நீண்ட சூழல்களின் பகுப்பாய்வு தேவைப்படும் பயன்பாடுகளுக்கு தொழில்நுட்பம் இன்னும் சாத்தியமானதாக நிரூபிக்கிறது, இதில் நிமிட விவரத்தை விட மேலோட்டம் முக்கியமானது. இந்த செயல்திறன் செயலாக்கத்தை விரைவுபடுத்துவது மட்டுமல்லாமல், உற்பத்தி பகுப்பாய்வுகளின்படி, 90% ஐ எட்டக்கூடிய செயல்பாட்டு செலவு சேமிப்பையும் உருவாக்குகிறது. மாடலின் பல்துறை மற்றொரு வலுவான அம்சமாகும், இது நிதி அறிக்கைகள், விலைப்பட்டியல்கள் மற்றும் கையால் எழுதப்பட்ட குறிப்புகள் போன்ற ஒழுங்கற்ற தளவமைப்புகளுடன் ஆவணங்களைச் செயலாக்குவதற்கான அதன் திறனை நிரூபிக்கிறது, அத்துடன் மற்ற LLM களைப் பயிற்றுவிப்பதற்கான உயர்தர செயற்கைத் தரவை உருவாக்குகிறது, கிடைக்கக்கூடிய தரவுத்தொகுப்புகளை விரிவுபடுத்துகிறது. ஒவ்வொரு படத்திற்கும் 64 முதல் 400 டோக்கன்கள் வரையிலான மாறுபட்ட தெளிவுத்திறனுடன் இணக்கமானது, வெவ்வேறு பயன்பாட்டுத் தேவைகளுக்கு நெகிழ்வுத்தன்மையை உறுதி செய்கிறது.

செயற்கை நுண்ணறிவு சமூகத்தில் ஏற்படும் விளைவுகள்

DeepSeek-OCR இன் வெளியீடு AI சமூகத்தில் உள்ள முக்கிய நபர்களிடமிருந்து உடனடி மற்றும் நேர்மறையான எதிர்வினைகளை உருவாக்கியது. OpenAI இன் இணை நிறுவனர் மற்றும் துறையில் மிகவும் மதிக்கப்படும் குரல்களில் ஒருவரான Andrej Karpathi, ஆராய்ச்சியை பொதுவில் பாராட்டினார், ஒரு அடிப்படை கேள்வியை எழுப்பினார்: எல்எல்எம்களுக்கான உரை டோக்கன்களை விட பிக்சல்கள் மிகவும் திறமையான உள்ளீடாக மாறுமா.

அவரது பகுப்பாய்வில், நினைவக பயன்பாடு மற்றும் வேகத்தின் அடிப்படையில் சாத்தியமான நன்மைகளை உயர்த்தி, செயலாக்கத்தை மேம்படுத்த, அனைத்து உரைகளையும் ஒரு படமாக வழங்குவதற்கான சாத்தியத்தை கர்பதி பரிந்துரைத்தார். மொழி மாதிரிகளை முழுமையாகப் பயிற்றுவிக்க இந்த நுட்பத்தை விரிவுபடுத்துவதற்கான சாத்தியக்கூறுகள் குறித்து சிறப்பு மன்றங்களில் டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களிடையே தீவிர விவாதத்தை அவரது இடுகை தூண்டியது.

திறந்த மூல சமூகத்தின் உற்சாகம் தெளிவாகத் தெரிந்தது, GitHub இல் திட்டம் அறிவிக்கப்பட்ட 24 மணி நேரத்திற்குள் 4,000 க்கும் மேற்பட்ட நட்சத்திரங்களைத் திரட்டியது. இந்த விரைவான ஈடுபாடு, தொழில்நுட்பத்தை பரிசோதனை செய்து மாற்றியமைப்பதில் வலுவான ஆர்வத்தைக் குறிக்கிறது, இது உலகெங்கிலும் உள்ள டெவலப்பர்கள் மற்றும் நிறுவனங்களால் சாத்தியமான விரைவான தத்தெடுப்பைக் குறிக்கிறது.

நடைமுறை பயன்பாடுகள் மற்றும் வணிக தாக்கம்

நிறுவன சூழலுக்கான DeepSeek-OCR இன் தாக்கங்கள் பரந்த மற்றும் மாற்றத்தக்கவை. இந்தத் தொழில்நுட்பத்தின் மூலம், தொழில்நுட்ப ஆவணங்கள், தயாரிப்பு கையேடுகள் அல்லது மூலக் குறியீடு களஞ்சியங்கள் போன்ற முழு அறிவுத் தளங்களையும் ஒரே AI தொடர்புகளில் ஏற்றுவதற்கு நிறுவனங்கள் அனுமதிப்பதன் மூலம் துண்டு துண்டான தூண்டுதல்களின் வரம்புகளைக் கடக்க முடியும். இது தொடர்ச்சியான தேடல்களின் தேவையை நீக்குகிறது மேலும் முழுமையான மற்றும் சூழல் சார்ந்த பகுப்பாய்வுகளை அனுமதிக்கிறது.

முன்னாள் அளவு முதலீட்டாளரான ஜெஃப்ரி இமானுவேல், மில்லியன் கணக்கான டோக்கன்களுடன் உடனடி தற்காலிக சேமிப்பை உருவாக்கும் தொழில்நுட்பத்தின் திறனை உயர்த்தி காட்டினார், இது சிக்கலான நிறுவன வினவல்களில் தாமதத்தை வெகுவாகக் குறைக்கும். கல்விக் கட்டுரைகள், செய்தித்தாள்கள் மற்றும் வருடாந்திர அறிக்கைகள் உட்பட ஒன்பது வெவ்வேறு வகையான PDFகளை செயலாக்கும் திறன், முன்னர் பல வாரங்கள் கைமுறையாக வேலை செய்ய வேண்டிய பகுப்பாய்வுகளை விரைவுபடுத்துகிறது, மூலோபாய நுண்ணறிவுகளில் கவனம் செலுத்த குழுக்களை விடுவிக்கிறது.

டீப்என்கோடரின் தொழில்நுட்ப வழிமுறை

DeepSeek-OCR இன் செயல்பாட்டின் பின்னணியில் உள்ள கட்டமைப்பு அதன் DeepEncoder கூறுகளை மையமாகக் கொண்டது. இந்த மென்பொருள் பொறியியலில் குறிப்பிட்ட பணிகளை மிகவும் உகந்த முறையில் செய்ய மேம்பட்ட மாதிரிகளை ஒருங்கிணைக்கிறது.

ஆரம்பத்தில், செக்மென்ட் எனிதிங் மாடல் (எஸ்ஏஎம்) போன்ற மாதிரிகள், ஆவணப் படத்தில் உள்ள தளவமைப்பு மற்றும் உறுப்புகளின் துல்லியமான பிரிவுக்காகப் பயன்படுத்தப்படுகின்றன. இணையாக, CLIP (கான்ட்ராஸ்டிவ் லாங்குவேஜ்-இமேஜ் முன் பயிற்சி) மாதிரியானது பக்கத்தின் உலகளாவிய சூழலைப் பற்றிய புரிதலை வழங்குகிறது.

இந்த ஆரம்ப பகுப்பாய்விற்குப் பிறகு, ஒரு கம்ப்ரசர் செயல்பாட்டிற்கு வருகிறது, டோக்கன்களின் எண்ணிக்கையை 16 மடங்கு வரை குறைக்கிறது. இந்த ஆக்கிரமிப்பு சுருக்கமானது கணினியை திறம்படச் செய்ய அனுமதிக்கிறது, இது பின்வரும் படிகளில் செயலாக்கப்பட வேண்டிய தரவு சுமையைக் குறைக்கிறது.

இதன் விளைவாக, அனுமானத்தின் போது வெறும் 570 மில்லியன் அளவுருக்களை செயல்படுத்தும் ஒரு கட்டமைப்பாகும், ஒவ்வொரு பணிக்கும் மிகவும் பொருத்தமான நரம்பியல் “நிபுணர்களை” மாறும் வகையில் தேர்ந்தெடுக்கும் MoE (நிபுணர்களின் கலவை) குறிவிலக்கிக்கு நன்றி. இந்த புத்திசாலித்தனமான வடிவமைப்பு, A100 GPUகள் கொண்ட 20-நோட் கிளஸ்டரில் ஒரு நாளைக்கு 33 மில்லியன் பக்கங்களை பகுப்பாய்வு செய்யும் திறனுடன், மிக விரைவான செயலாக்கத்தை செயல்படுத்துகிறது.

தொழில்நுட்ப சவால்கள் மற்றும் தொழில்நுட்பத்தின் எதிர்காலம்

தரவு சேமிப்பு மற்றும் புனரமைப்பு ஆகியவற்றில் அதன் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், DeepSeek-OCR இன்னும் வரம்புகளை எதிர்கொள்கிறது. தொழில்நுட்பத்தின் தற்போதைய கவனம் பார்வை சுருக்கப்பட்ட உள்ளடக்கத்தைப் பற்றிய மேம்பட்ட பகுத்தறிவைக் காட்டிலும் உண்மையுள்ள தகவலை மீட்டெடுப்பதில் அதிக கவனம் செலுத்துகிறது. நிஜ உலக ஆவணங்களில் தெளிவுத்திறன், வண்ணம் மற்றும் ஸ்கேன் தரத்தில் உள்ள மாறுபாடுகள் போன்ற நடைமுறைச் சவால்கள் துல்லியத்தை பாதிக்கலாம் மற்றும் முழுமையாக சமாளிக்க கூடுதல் ஆராய்ச்சி தேவை.

ஆராய்ச்சியின் அடுத்த படிகள், டிஜிட்டல் மற்றும் ஆப்டிகல் உரையின் இடைப்பட்ட முன் பயிற்சியை உள்ளடக்கியது, இரண்டு வடிவங்களையும் சொந்தமாகப் புரிந்துகொள்ளும் மாதிரியின் திறனை மேம்படுத்த முயல்கிறது. பெரிய அளவிலான தரவுகளிலிருந்து குறிப்பிட்ட தகவலை மீட்டெடுப்பதில் துல்லியத்தை அளவிட, “நீடில்-இன்-எ-ஹேஸ்டாக்” சோதனைகள் போன்ற மிகவும் சிக்கலான மதிப்பீடுகளைச் செய்யவும் குழு திட்டமிட்டுள்ளது. திறந்த மூல வடிவத்தில் மாதிரியை வெளியிடுவது, இயற்கையான படங்கள் மற்றும் சிக்கலான வடிவியல் புள்ளிவிவரங்களை செயலாக்க தொழில்நுட்பத்தை விரிவுபடுத்துவதற்கான எதிர்காலத் திட்டங்களுடன், தழுவல்கள் மற்றும் மேம்பாடுகளை பங்களிப்பதற்கான உலகளாவிய சமூகத்திற்கான அழைப்பாகும்.

பன்மொழி ஆதரவு மற்றும் ஆவண பல்துறை

DeepSeek-OCR இன் போட்டி வேறுபாடுகளில் ஒன்று அதன் பரந்த மொழியியல் திறன்கள் ஆகும், இது சுமார் 100 மொழிகளுக்கான ஆதரவை வழங்குகிறது. இது ஒரு உலகளாவிய கருவியாக மாற்றுகிறது, பன்னாட்டு நிறுவனங்கள் மற்றும் சர்வதேச ஆராய்ச்சி திட்டங்களுக்கு சேவை செய்யும் திறன் கொண்டது. சீன மற்றும் ஆங்கிலத்தில் 30 மில்லியன் பக்கங்களைக் கொண்ட பரந்த தரவுத்தொகுப்புடன் இந்த மாதிரி பயிற்சியளிக்கப்பட்டது, இது வணிகம் மற்றும் அறிவியல் உலகில் அதிகம் பயன்படுத்தப்படும் மொழிகளில் வலிமை மற்றும் துல்லியத்திற்கு உத்தரவாதம் அளிக்கிறது. அசல் மொழி அல்லது வடிவத்தைப் பொருட்படுத்தாமல், பெரிய அறிவுக் களஞ்சியங்களின் பகுப்பாய்வை முடுக்கி, பலதரப்பட்ட ஆவணங்களுக்கு தொழில்நுட்பத்தைப் பயன்படுத்த இந்த பல்துறை அனுமதிக்கிறது.

PlayStation 5는 주요 독점 게임 출시와 함께 2026년을 준비합니다. »

« Apple признает высокий расход заряда батареи iOS 26 и рассказывает, как iPhone оптимизирует себя после обновления

Tags: DeepSeek-OCROCR தொழில்நுட்பம்செயற்கை நுண்ணறிவுதரவு சுருக்கம்மொழி செயலாக்கம்