వృత్తిపరమైన పని మరియు స్వయంప్రతిపత్త ఏజెంట్లపై దృష్టి సారించి OpenAI GPT-5.4ని ప్రారంభించింది

OpenAI

OpenAI - Novikov Aleksey/ Shutterstock.com

OpenAI ఈ గురువారం (5) GPT-5.4ను ప్రారంభించింది, వృత్తిపరమైన పనిని లక్ష్యంగా చేసుకుని దాని అత్యంత సామర్థ్యం మరియు సమర్థవంతమైన సరిహద్దు మోడల్. ChatGPTలో GPT-5.4 థింకింగ్, API మరియు కోడెక్స్‌గా అందుబాటులో ఉంది, కొత్త సిస్టమ్ రీజనింగ్, కోడింగ్ మరియు ఏజెంట్ వర్క్‌ఫ్లోలలో ఇటీవలి పురోగతిని ఏకీకృతం చేస్తుంది. ప్రో వెర్షన్ కాంప్లెక్స్ టాస్క్‌లలో గరిష్ట పనితీరు కోసం డిమాండ్‌లను కలుస్తుంది. మోడల్ వృత్తిపరమైన కార్యకలాపాలను ఎక్కువ ఖచ్చితత్వంతో మరియు సర్దుబాట్ల కోసం తక్కువ అవసరంతో నిర్వహిస్తుంది, కార్పొరేట్ మరియు అభివృద్ధి పరిసరాలలో వినియోగదారులకు ప్రయోజనం చేకూరుస్తుంది.

GPT-5.4 సాధనాలు, సాఫ్ట్‌వేర్ మరియు స్ప్రెడ్‌షీట్‌లు, ప్రెజెంటేషన్‌లు మరియు పత్రాలతో కూడిన టాస్క్‌లకు మెరుగుదలలతో GPT-5.3-కోడెక్స్ నుండి కోడింగ్ లక్షణాలను మిళితం చేస్తుంది. ఇది తక్కువ పునరావృత పరస్పర చర్యలతో అభ్యర్థనలకు సమలేఖనం చేయబడిన ఫలితాలను అందిస్తుంది. ChatGPTలో, GPT-5.4 థింకింగ్ మునుపటి ఆలోచన ప్రణాళికను ప్రదర్శిస్తుంది, మరింత ఖచ్చితమైన ప్రతిస్పందనల కోసం నిజ-సమయ సర్దుబాట్లను అనుమతిస్తుంది. వెబ్ శోధన నిర్దిష్ట ప్రశ్నలలో లోతును పొందింది మరియు పొడిగించిన డైలాగ్‌లలో సందర్భాన్ని నిర్వహిస్తుంది.

ప్రొఫెషనల్ బెంచ్‌మార్క్‌లలో పనితీరు

GPT-5.4 GDPval అసెస్‌మెంట్‌లలో నిపుణులపై 83.0% విజయాలు లేదా డ్రాలను సాధించింది, ఇది 44 వృత్తులను కవర్ చేస్తుంది మరియు అకౌంటింగ్ స్ప్రెడ్‌షీట్‌లు మరియు ప్రెజెంటేషన్‌ల వంటి నిజమైన ఉత్పత్తులు అవసరం. ఈ రేటు GPT-5.2లో 70.9%ని అధిగమించింది. మెర్కోర్ మరియు హార్వే వంటి కంపెనీలలోని ఎగ్జిక్యూటివ్‌లు దీర్ఘకాలిక డెలివరీలు మరియు సంక్లిష్ట చట్టపరమైన విశ్లేషణలలో ఆధిపత్యాన్ని హైలైట్ చేస్తారు.

మోడల్ స్ప్రెడ్‌షీట్ సృష్టి మరియు సవరణను మెరుగుపరుస్తుంది, అంతర్గత ఫైనాన్షియల్ మోడలింగ్ పరీక్షలలో సగటు స్కోరు 87.3%, దాని ముందున్న 68.4%తో పోలిస్తే. శుద్ధి చేయబడిన సౌందర్యం మరియు చిత్రాల ప్రభావవంతమైన ఉపయోగం కారణంగా మానవ మూల్యాంకనం చేసేవారు 68% కేసులలో GPT-5.4 ద్వారా రూపొందించబడిన ప్రెజెంటేషన్‌లకు ప్రాధాన్యత ఇవ్వబడింది.

స్థానిక కంప్యూటర్ వినియోగ సామర్థ్యాలు

GPT-5.4 కంప్యూటర్ ఆపరేషన్ కోసం స్థానిక మద్దతును పరిచయం చేస్తుంది, వివిధ అప్లికేషన్లలో సంక్లిష్ట ప్రవాహాలను అమలు చేయడానికి ఏజెంట్లను అనుమతిస్తుంది. సుదీర్ఘ క్షితిజాల్లో ప్రణాళిక మరియు ధృవీకరణ కోసం ఇది 1 మిలియన్ సందర్భోచిత టోకెన్‌లకు మద్దతు ఇస్తుంది. మోడల్ OSWorld-Verified వంటి బెంచ్‌మార్క్‌లలో 75.0% సక్సెస్ రేటుతో మరియు WebArena-వెరిఫైడ్ 67.3%కి చేరుకుంది.

మెరుగైన దృశ్యమాన అవగాహన అధిక-రిజల్యూషన్ పత్రాలు మరియు చిత్రాల విశ్లేషణకు దోహదం చేస్తుంది. MMMU-Proలో, సాధనాలు లేకుండా ఖచ్చితత్వం 81.2%కి చేరుకుంటుంది. చిత్రం ఇన్‌పుట్ వివరాలు 2.56 మిలియన్ పిక్సెల్‌ల వరకు మద్దతునిస్తాయి, స్థానికీకరణ మరియు క్లిక్ ఖచ్చితత్వాన్ని మెరుగుపరుస్తాయి.

కోడింగ్ మరియు సామర్థ్యంలో పురోగతి

GPT-5.4 SWE-బెంచ్ ప్రోలో GPT-5.3-కోడెక్స్‌తో సరిపోలుతుంది లేదా అధిగమించింది, తార్కిక దశల్లో తక్కువ జాప్యం ఉంటుంది. /కోడెక్స్‌లోని ఫాస్ట్ మోడ్ టోకనైజేషన్ వేగాన్ని 1.5 రెట్లు పెంచుతుంది. కాంప్లెక్స్ ఫ్రంట్-ఎండ్ టాస్క్‌లు మరింత సౌందర్య మరియు క్రియాత్మక ఫలితాలను ఉత్పత్తి చేస్తాయి.

ఇంటరాక్టివ్ ప్లేరైట్ అనే ప్రయోగాత్మక నైపుణ్యం వెబ్ మరియు ఎలక్ట్రాన్ అప్లికేషన్‌ల దృశ్య డీబగ్గింగ్‌ను అనుమతిస్తుంది. ఉదాహరణలలో ప్లేరైట్ ద్వారా స్వయంచాలక పరీక్షతో సాధారణ ప్రాంప్ట్‌ల నుండి సృష్టించబడిన థీమ్ పార్క్ అనుకరణలు ఉన్నాయి.

సాధనాలు మరియు శోధనల వినియోగంలో మెరుగుదలలు

APIలో సాధనాల కోసం శోధించడం వలన విస్తృత పర్యావరణ వ్యవస్థల్లో అవసరమైన టోకెన్‌లు తగ్గుతాయి, అట్లాస్ MCP టాస్క్‌లపై 47% ఆదా అవుతుంది. ఏజెంట్ టూల్ కాలింగ్ టూలాథ్లాన్‌లో ఖచ్చితత్వాన్ని పెంచుతుంది. 82.7% ఖచ్చితత్వంతో బ్రౌజ్‌కాంప్‌లో నిరంతర వెబ్ శోధన మెరుగుపడుతుంది.

GPT-5.4 థింకింగ్ అనేది మీ రీజనింగ్‌ను సుదీర్ఘ ప్రశ్నలలో వివరిస్తుంది, పునఃప్రారంభించకుండానే లక్ష్యాన్ని అనుమతిస్తుంది. ఇది దీర్ఘ ప్రవాహాలలో పొందికను నిర్వహిస్తుంది మరియు భ్రాంతులను తగ్గిస్తుంది, పూర్తి ప్రతిస్పందనలలో 33% తక్కువ తప్పుడు ప్రకటనలు మరియు 18% తక్కువ లోపాలు ఉన్నాయి.

లభ్యత మరియు ధర

రోల్ అవుట్ క్రమంగా ChatGPT మరియు కోడెక్స్‌లో జరుగుతుంది. APIలో, GPT-5.4 gpt-5.4గా మరియు ప్రో వెర్షన్ gpt-5.4-proగా అందుబాటులో ఉంది. అదనంగా, టీమ్ మరియు ప్రో యూజర్‌లు GPT-5.4 థింకింగ్‌ని యాక్సెస్ చేస్తారు, GPT-5.2 థింకింగ్‌ని భర్తీ చేస్తారు, ఇది మూడు నెలల పాటు ఉంటుంది. ఎంటర్‌ప్రైజ్ మరియు ఎడ్యు ప్లాన్‌లు అడ్మినిస్ట్రేటివ్ సెట్టింగ్‌ల ద్వారా యాక్సెస్‌ను ఎనేబుల్ చేస్తాయి.

ధర మెరుగుపరచబడిన సామర్థ్యాలను ప్రతిబింబిస్తుంది, కానీ టోకెన్ సామర్థ్యం అనేక పనులలో చెల్లిస్తుంది. బ్యాచ్ మరియు ఫ్లెక్స్ ప్రాసెసింగ్‌కి సగం స్టాండర్డ్ ఖర్చవుతుంది, అయితే ప్రాధాన్యత ధరను రెట్టింపు చేస్తుంది.