News (TE)

DeepSeek యొక్క కొత్త AI టెక్స్ట్‌ని ఇమేజ్‌గా మారుస్తుంది మరియు 97% ఖచ్చితత్వంతో డేటా కంప్రెషన్‌ను సాధిస్తుంది

DeepSeek
DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

చైనీస్ టెక్నాలజీ కంపెనీ డీప్‌సీక్ డీప్‌సీక్-ఓసిఆర్ విడుదలతో ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ రంగంలో ఒక ముఖ్యమైన ఆవిష్కరణను ప్రకటించింది, ఇది పెద్ద భాషా నమూనాల (ఎల్‌ఎమ్‌లు) యొక్క అతిపెద్ద అడ్డంకులలో ఒకటైన కాంటెక్స్ట్ విండో పరిమితిని అధిగమించడానికి రూపొందించబడింది. కొత్త విధానం టెక్స్ట్‌ని విజువల్ రిప్రజెంటేషన్‌గా మారుస్తుంది, గణనీయమైన సమాచారాన్ని కోల్పోకుండా పది రెట్లు ఎక్కువ డేటా కంప్రెషన్‌ను అనుమతిస్తుంది.

అసలైన కంటెంట్‌ను తిరిగి పొందడంలో 97% ఖచ్చితత్వాన్ని కొనసాగిస్తూనే, ఈ సాంకేతికత AI సిస్టమ్‌లను మరింత త్వరగా మరియు తక్కువ ఖర్చుతో కూడిన డాక్యుమెంట్‌ల భారీ వాల్యూమ్‌లను ప్రాసెస్ చేయడానికి అనుమతిస్తుంది. అభివృద్ధి, సాంకేతిక కథనంలో వివరించబడింది, గణన ఖర్చులలో పర్యవసానంగా పెరుగుదల లేకుండా పెద్ద-స్థాయి డేటా ప్రాసెసింగ్ కోసం పెరుగుతున్న డిమాండ్‌కు నేరుగా ప్రతిస్పందిస్తుంది.

డీప్‌సీక్-ఓసిఆర్ పరిష్కరించాలని లక్ష్యంగా పెట్టుకున్న ప్రధాన సమస్య ఏమిటంటే, ఒకే పరస్పర చర్యలో సమాచారాన్ని “గుర్తుంచుకోవడానికి” లేదా ప్రాసెస్ చేయడానికి LLMల పరిమిత సామర్థ్యం. టెక్స్ట్‌ని కాంపాక్ట్ ఇమేజ్‌లుగా మార్చడం ద్వారా, ఈ మోడల్‌ల కోసం ప్రాథమిక సమాచార యూనిట్ అయిన టెక్స్ట్ టోకెన్‌ల యొక్క దీర్ఘ శ్రేణులను ప్రాసెస్ చేయాల్సిన అవసరాన్ని సాంకేతికత దాటవేస్తుంది, వనరుల వినియోగాన్ని ఆప్టిమైజ్ చేస్తుంది మరియు సంక్లిష్ట పత్రాలను విశ్లేషించడానికి కొత్త అవకాశాలను తెరుస్తుంది.

Inteligência Artificial
ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ – ఫోటో: ఔలీ ప్రొడక్షన్స్/ Shutterstock.com

విజువల్ కంప్రెషన్ వెనుక ఉన్న ఆవిష్కరణ

DeepSeek-OCR రెండు-దశల ప్రక్రియతో పనిచేస్తుంది, ఇది AI సిస్టమ్‌ల ద్వారా పాఠ్య సమాచారం ఎలా నిర్వహించబడుతుందో సమూలంగా మారుస్తుంది. ముందుగా, మోడల్ ఇన్‌పుట్ టెక్స్ట్‌ని అందుకుంటుంది మరియు డిజిటల్ స్క్రీన్‌పై కంటెంట్‌ను “ప్రింటింగ్” చేసినట్లుగా అంతర్గతంగా రెండు డైమెన్షనల్ ఇమేజ్‌లుగా మారుస్తుంది. ప్రత్యేక దృశ్య ఎన్‌కోడర్‌లు ఈ చిత్రాలను విశ్లేషిస్తాయి మరియు వాటిని చాలా తక్కువ సంఖ్యలో విజువల్ టోకెన్‌లుగా కుదించాయి. ఈ వ్యూహం సిస్టమ్ యొక్క సామర్థ్యానికి ప్రాథమికమైనది, ఎందుకంటే ఇది ప్రాసెసింగ్‌కు అవసరమైన గణన భారాన్ని బాగా తగ్గిస్తుంది. పోలిక కోసం, GOT-OCR2.0 వంటి పోటీ మోడల్‌లకు ఒకే పేజీని ప్రాసెస్ చేయడానికి దాదాపు 256 టోకెన్‌లు అవసరమవుతాయి, అయితే DeepSeek-OCR కేవలం 100 విజువల్ టోకెన్‌లతో అదే పనిని నిర్వహిస్తుంది, ఇది 60% కంటే ఎక్కువ ఆప్టిమైజేషన్‌ను సూచిస్తుంది.

ఈ సాంకేతికత యొక్క అత్యంత అధునాతన అంశాలలో ఒకటి మానవ జ్ఞాపకశక్తి పనితీరును అనుకరించే వేరియబుల్ కంప్రెషన్ సిస్టమ్‌ను అమలు చేయడం. మోడల్ ఎక్కువ రిజల్యూషన్‌ను కేటాయిస్తుంది మరియు తత్ఫలితంగా, అత్యంత ఇటీవలి మరియు సంబంధిత సందర్భాలకు మరిన్ని టోకెన్‌లను అందిస్తుంది, అయితే పాత లేదా తక్కువ ప్రాధాన్యత సమాచారం తక్కువ వివరంగా నిల్వ చేయబడుతుంది మరియు తక్కువ టోకెన్‌లను ఉపయోగిస్తుంది. ఈ డైనమిక్ రిసోర్స్ కేటాయింపు దీర్ఘకాలిక నిల్వను ఆప్టిమైజ్ చేస్తూ, అవసరమైన చోట ఖచ్చితత్వం నిర్వహించబడుతుందని నిర్ధారిస్తుంది. మోడల్ యొక్క సుమారు 100 విభిన్న భాషలను నిర్వహించగల సామర్థ్యం మరియు గ్రాఫ్‌లు, సంక్లిష్ట పట్టికలు మరియు రసాయన సూత్రాలు వంటి పాఠ్యేతర అంశాలను ప్రాసెస్ చేయడం వాస్తవ ప్రపంచ దృశ్యాలలో దాని వర్తకతను మరింత విస్తరిస్తుంది, ఇది ప్రపంచ స్థాయిలో జ్ఞానాన్ని డిజిటలైజ్ చేయడానికి మరియు విశ్లేషించడానికి బహుముఖ సాధనంగా చేస్తుంది.

[[MVG_PROTECTED_BLOCK_0]

సంఖ్యలలో సామర్థ్యం మరియు పనితీరు

DeepSeek-OCR యొక్క ఆధిక్యత OmniDocBench వంటి కఠినమైన బెంచ్‌మార్క్ పరీక్షలలో ధృవీకరించబడింది, ఇక్కడ ఇది స్టేట్ ఆఫ్ ది ఆర్ట్ మోడల్‌లను గణనీయంగా అధిగమించింది. ఒక ముఖ్యమైన ఉదాహరణ MinerU తో పోలిక, ఇది ఒక డాక్యుమెంట్ పేజీని విశ్లేషించడానికి 6 వేల కంటే ఎక్కువ టోకెన్‌లను వినియోగిస్తుంది. దీనికి విరుద్ధంగా, DeepSeek మోడల్ 800 కంటే తక్కువ టోకెన్‌లను ఉపయోగించి అదే పనిని చేస్తుంది, ఇది వనరుల వినియోగంలో దాదాపు 90% తగ్గింపును సూచిస్తుంది. కుదింపు రేటు 20 రెట్లు పెరిగినప్పటికీ, ఖచ్చితత్వంలో 60% తగ్గుదల ఫలితంగా, సాంకేతికత ఇప్పటికీ చాలా పొడవైన సందర్భాల విశ్లేషణ అవసరమయ్యే అప్లికేషన్‌లకు ఆచరణీయమని రుజువు చేస్తుంది, ఇక్కడ నిమిషం వివరాల కంటే స్థూలదృష్టి చాలా ముఖ్యమైనది. ఈ సామర్థ్యం ప్రాసెసింగ్‌ను వేగవంతం చేయడమే కాకుండా, ఉత్పత్తి విశ్లేషణల ప్రకారం 90%కి చేరుకునే కార్యాచరణ ఖర్చులలో పొదుపును కూడా ఉత్పత్తి చేస్తుంది. మోడల్ యొక్క బహుముఖ ప్రజ్ఞ మరొక బలమైన అంశం, ఆర్థిక నివేదికలు, ఇన్‌వాయిస్‌లు మరియు చేతితో వ్రాసిన గమనికలు వంటి క్రమరహిత లేఅవుట్‌లతో డాక్యుమెంట్‌లను ప్రాసెస్ చేయగల సామర్థ్యాన్ని ప్రదర్శిస్తుంది, అలాగే ఇతర LLMలకు శిక్షణ ఇవ్వడం, అందుబాటులో ఉన్న డేటా సెట్‌లను విస్తరించడం కోసం అధిక-నాణ్యత సింథటిక్ డేటాను రూపొందించడం. ప్రతి చిత్రానికి 64 నుండి 400 టోకెన్‌ల వరకు విభిన్న రిజల్యూషన్‌లతో అనుకూలత, విభిన్న అప్లికేషన్ అవసరాలకు సౌలభ్యాన్ని నిర్ధారిస్తుంది.

కృత్రిమ మేధ సంఘంలో పరిణామాలు

DeepSeek-OCR ప్రారంభం AI కమ్యూనిటీలోని ప్రముఖ వ్యక్తుల నుండి తక్షణ మరియు సానుకూల ప్రతిచర్యలను సృష్టించింది. OpenAI సహ వ్యవస్థాపకుడు మరియు ఈ రంగంలో అత్యంత గౌరవనీయమైన స్వరాలలో ఒకరైన ఆండ్రెజ్ కర్పతి ఈ పరిశోధనను బహిరంగంగా ప్రశంసించారు.

[[MVG_PROTECTED_BLOCK_0]

తన విశ్లేషణలో, కర్పతి LLMల కోసం టెక్స్ట్ టోకెన్‌ల కంటే పిక్సెల్‌లు మరింత సమర్థవంతమైన ఇన్‌పుట్ సాధనంగా మారగలదా అనే ప్రాథమిక ప్రశ్నను లేవనెత్తారు, ప్రాసెసింగ్‌ను ఆప్టిమైజ్ చేయడానికి మొత్తం టెక్స్ట్‌ను ఇమేజ్‌గా రెండర్ చేసే అవకాశాన్ని సూచిస్తున్నారు.

మెమరీ వినియోగం మరియు వేగం పరంగా సంభావ్య ప్రయోజనాలను హైలైట్ చేస్తూ, భాషా నమూనాలకు పూర్తిగా శిక్షణ ఇవ్వడానికి ఈ సాంకేతికతను విస్తరించే సాధ్యాసాధ్యాల గురించి ప్రత్యేక ఫోరమ్‌లలో డెవలపర్‌లు మరియు పరిశోధకుల మధ్య పోస్ట్ తీవ్రమైన చర్చను రేకెత్తించింది.

ఓపెన్ సోర్స్ కమ్యూనిటీ నుండి ఉత్సాహం స్పష్టంగా కనిపించింది, GitHubపై ప్రాజెక్ట్ ప్రకటన వెలువడిన 24 గంటల్లోనే 4,000 నక్షత్రాలకు పైగా పేరుకుపోయింది, సాంకేతికతను ప్రయోగాలు చేయడం మరియు స్వీకరించడం పట్ల బలమైన ఆసక్తిని సూచిస్తుంది.

ప్రాక్టికల్ అప్లికేషన్లు మరియు వ్యాపార ప్రభావం

ఎంటర్‌ప్రైజ్ పర్యావరణం కోసం DeepSeek-OCR యొక్క చిక్కులు విస్తృతమైనవి మరియు రూపాంతరం చెందుతాయి. ఈ సాంకేతికతతో, కంపెనీలు ఒకే AI ఇంటరాక్షన్‌లో సాంకేతిక డాక్యుమెంటేషన్, ఉత్పత్తి మాన్యువల్‌లు లేదా సోర్స్ కోడ్ రిపోజిటరీలు వంటి మొత్తం నాలెడ్జ్ బేస్‌లను లోడ్ చేయడానికి అనుమతించడం ద్వారా ఫ్రాగ్మెంటెడ్ ప్రాంప్ట్‌ల పరిమితులను అధిగమించవచ్చు.

ఇది వరుస శోధనల అవసరాన్ని తొలగిస్తుంది మరియు మరింత సమగ్రమైన మరియు సందర్భోచిత విశ్లేషణను అనుమతిస్తుంది. మాజీ క్వాంటిటేటివ్ ఇన్వెస్టర్ అయిన జెఫ్రీ ఇమాన్యుయెల్, మిలియన్ల కొద్దీ టోకెన్‌లను కలిగి ఉన్న క్యాష్‌లను త్వరగా సృష్టించే సాంకేతికత యొక్క సామర్థ్యాన్ని హైలైట్ చేసారు, ఇది సంక్లిష్టమైన ఎంటర్‌ప్రైజ్ క్వెరీల కోసం జాప్యాన్ని బాగా తగ్గిస్తుంది, గతంలో మాన్యువల్ వర్క్ అవసరమైన విశ్లేషణలను వేగవంతం చేస్తుంది.

DeepEncoder యొక్క సాంకేతిక విధానం

DeepSeek-OCR యొక్క సామర్థ్యం వెనుక ఉన్న నిర్మాణం DeepEncoder భాగంపై కేంద్రీకృతమై ఉంది. ఈ సాఫ్ట్‌వేర్ ఇంజనీరింగ్ నిర్దిష్ట పనులను అత్యంత ఆప్టిమైజ్ చేసిన విధంగా నిర్వహించడానికి అధునాతన నమూనాలను అనుసంధానిస్తుంది.

ప్రారంభంలో, సెగ్మెంట్ ఏదైనా మోడల్ (SAM) వంటి నమూనాలు డాక్యుమెంట్ యొక్క లేఅవుట్ మరియు ఇమేజ్ ఎలిమెంట్‌లను ఖచ్చితంగా విభజించడానికి ఉపయోగించబడతాయి.

అదే సమయంలో, CLIP (కాంట్రాస్టివ్ లాంగ్వేజ్-ఇమేజ్ ప్రీ-ట్రైనింగ్) మోడల్ పేజీ యొక్క ప్రపంచ సందర్భాన్ని అర్థం చేసుకోవడానికి హామీ ఇస్తుంది.

ఈ ప్రాథమిక విశ్లేషణ తర్వాత, కంప్రెసర్ చర్యలోకి వస్తుంది, టోకెన్‌ల సంఖ్యను 16 రెట్లు తగ్గించి, సిస్టమ్ సామర్థ్యానికి హామీ ఇస్తుంది మరియు కింది దశల్లో ప్రాసెస్ చేయడానికి డేటా లోడ్‌ను తగ్గిస్తుంది.

సాంకేతిక సవాళ్లు మరియు టెక్నాలజీ భవిష్యత్తు

డేటా నిల్వ మరియు పునర్నిర్మాణంలో విశేషమైన పనితీరు ఉన్నప్పటికీ, DeepSeek-OCR ఇప్పటికీ పరిమితులను ఎదుర్కొంటోంది. ప్రస్తుతం, సాంకేతికత దృశ్యపరంగా కుదించబడిన కంటెంట్ గురించి అధునాతన తార్కికం కంటే విశ్వసనీయ సమాచారాన్ని తిరిగి పొందడంపై ఎక్కువ దృష్టి పెడుతుంది.

వాస్తవ ప్రపంచ డాక్యుమెంట్‌లలో స్పష్టత, రంగు మరియు స్కాన్ నాణ్యతలో వైవిధ్యాలు వంటి ఆచరణాత్మక సవాళ్లు ఖచ్చితత్వాన్ని ప్రభావితం చేస్తాయి మరియు పూర్తిగా అధిగమించడానికి తదుపరి పరిశోధన అవసరం. పరిశోధన యొక్క తదుపరి దశలలో డిజిటల్ మరియు ఆప్టికల్ టెక్స్ట్ యొక్క ఇంటర్‌లీవ్డ్ ప్రీ-ట్రైనింగ్ ఉన్నాయి, రెండు ఫార్మాట్‌లను స్థానికంగా అర్థం చేసుకునే మోడల్ సామర్థ్యాన్ని మెరుగుపరచడం లక్ష్యంగా పెట్టుకుంది.

బహుభాషా మద్దతు మరియు బహుముఖ ప్రజ్ఞ

DeepSeek-OCR యొక్క పోటీ భేదాలలో ఒకటి దాని విస్తృత భాషా సామర్థ్యాలు, దాదాపు 100 భాషలకు మద్దతును అందిస్తోంది. ఇది అంతర్జాతీయ సంస్థలకు మరియు బహుళజాతి పరిశోధన ప్రాజెక్టులకు సేవ చేయగల సామర్థ్యాన్ని కలిగి ఉన్న ప్రపంచ సాధనంగా చేస్తుంది. చైనీస్ మరియు ఆంగ్లంలో 30 మిలియన్ పేజీలను కలిగి ఉన్న విస్తారమైన డేటాసెట్‌లో మోడల్ శిక్షణ పొందింది, వ్యాపారం మరియు విజ్ఞాన ప్రపంచంలో ఎక్కువగా ఉపయోగించే భాషలలో దృఢత్వం మరియు ఖచ్చితత్వాన్ని నిర్ధారిస్తుంది.

To Top