ChatGPT Is a Blurry JPEG of the Web

Wed, 22 Mar 2023 22:16:48 +1100

Andrew Pam <xanni [at] glasswings.com.au>

Andrew Pam
<https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web>

"In 2013, workers at a German construction company noticed something odd about
their Xerox photocopier: when they made a copy of the floor plan of a house,
the copy differed from the original in a subtle but significant way. In the
original floor plan, each of the house’s three rooms was accompanied by a
rectangle specifying its area: the rooms were 14.13, 21.11, and 17.42 square
metres, respectively. However, in the photocopy, all three rooms were labelled
as being 14.13 square metres in size. The company contacted the computer
scientist David Kriesel to investigate this seemingly inconceivable result.
They needed a computer scientist because a modern Xerox photocopier doesn’t use
the physical xerographic process popularized in the nineteen-sixties. Instead,
it scans the document digitally, and then prints the resulting image file.
Combine that with the fact that virtually every digital image file is
compressed to save space, and a solution to the mystery begins to suggest
itself.

Compressing a file requires two steps: first, the encoding, during which the
file is converted into a more compact format, and then the decoding, whereby
the process is reversed. If the restored file is identical to the original,
then the compression process is described as lossless: no information has been
discarded. By contrast, if the restored file is only an approximation of the
original, the compression is described as lossy: some information has been
discarded and is now unrecoverable. Lossless compression is what’s typically
used for text files and computer programs, because those are domains in which
even a single incorrect character has the potential to be disastrous. Lossy
compression is often used for photos, audio, and video in situations in which
absolute accuracy isn’t essential. Most of the time, we don’t notice if a
picture, song, or movie isn’t perfectly reproduced. The loss in fidelity
becomes more perceptible only as files are squeezed very tightly. In those
cases, we notice what are known as compression artifacts: the fuzziness of the
smallest JPEG and MPEG images, or the tinny sound of low-bit-rate MP3s.

Xerox photocopiers use a lossy compression format known as JBIG2, designed for
use with black-and-white images. To save space, the copier identifies
similar-looking regions in the image and stores a single copy for all of them;
when the file is decompressed, it uses that copy repeatedly to reconstruct the
image. It turned out that the photocopier had judged the labels specifying the
area of the rooms to be similar enough that it needed to store only one of
them—14.13—and it reused that one for all three rooms when printing the floor
plan."

Cheers,
       *** Xanni ***
--
mailto:xanni@xanadu.net               Andrew Pam
http://xanadu.com.au/                 Chief Scientist, Xanadu
https://glasswings.com.au/            Partner, Glass Wings
https://sericyb.com.au/               Manager, Serious Cybernetics

Comment via email

Home E-Mail Sponsors Index Search About Us