OpenAI’s new ‘deep research’ agent is still just a fallible tool – not a human-level expert

Sun, 16 Feb 2025 11:09:15 +1100

Andrew Pam <xanni [at] glasswings.com.au>

Andrew Pam
<https://theconversation.com/openais-new-deep-research-agent-is-still-just-a-fallible-tool-not-a-human-level-expert-249496>

"OpenAI’s “deep research” is the latest artificial intelligence (AI) tool
making waves and promising to do in minutes what would take hours for a human
expert to complete.

Bundled as a feature in ChatGPT Pro and marketed as a research assistant that
can match a trained analyst, it autonomously searches the web, compiles sources
and delivers structured reports. It even scored 26.6% on Humanity’s Last Exam
(HLE), a tough AI benchmark, outperforming many models.

But deep research doesn’t quite live up to the hype. While it produces polished
reports, it also has serious flaws. According to journalists who’ve tried it,
deep research can miss key details, struggle with recent information and
sometimes invents facts.

OpenAI flags this when listing the limitations of its tool. The company also
says it “can sometimes hallucinate facts in responses or make incorrect
inferences, though at a notably lower rate than existing ChatGPT models,
according to internal evaluations”.

It’s no surprise that unreliable data can slip in, since AI models don’t “know”
things in the same way humans do.

The idea of an AI “research analyst” also raises a slew of questions. Can a
machine – no matter how powerful – truly replace a trained expert? What would
be the implications for knowledge work? And is AI really helping us think
better, or just making it easier to stop thinking altogether?"

Cheers,
       *** Xanni ***
--
mailto:xanni@xanadu.net               Andrew Pam
http://xanadu.com.au/                 Chief Scientist, Xanadu
https://glasswings.com.au/            Partner, Glass Wings
https://sericyb.com.au/               Manager, Serious Cybernetics

Comment via email

Home E-Mail Sponsors Index Search About Us