더 나은 세상은 가능하다, 이정환닷컴!

챗 GPT는 웹의 흐릿한 JPEG라는 테드 창의 비유.

Written by leejeonghwan

February 13, 2023

테드 창이 본 Chat-GPT. 통찰로 가득한 글이다. 거칠게 요약하면서 코멘트를 달아봤다.

– JPEG 파일은 원본 사진과 다르다. 파일 크기는 줄어들지만 압축 정도에 따라 픽셀의 손실이 발생한다. 확대해 보면 반드시 깨진다.
– 테드 창은 Chat-GPT가 JPEG 이미지와 비슷하다고 본다. 전체적으로 비슷하지만 텍스트를 뭉뚱그리는 과정에서 넘겨짚게 되고 필연적으로 오류가 발생한다고 보기 때문이다.
– 인쇄물을 복사기에 돌리면 거의 비슷한 결과물인데 이걸 다시 복사기에 돌리고 꺼내서 다시 돌리고 100번쯤 하다 보면 전혀 알아볼 수 없게 된다. 테드 창이 우려하는 것도 이런 것.
– 사실에 근거하지 않은 (모짜르트 첼로 협주곡이 몇 번까지 있나요? 같은) 질문에 엉뚱한 답변을 내놓는 것도 GPT가 실제 텍스트를 복붙하는 게 아니기 때문. 이게 강점이면서 한계.
– 사람들이 GPT에 놀라워하는 건 깜박 속아 넘어갈 정도로 그럴 듯한 답변을 내놓기 때문. (“모짜르트 첼로 협주곡은 9번까지 있습니다.”) (아마 이 대목에서 내가 그동안 잘못 알았나 할 사람들이 많을 듯.)
– 테드 창은 정보를 압축하는 과정에서 일부 텍스트가 왜곡되는 것이 불가피하다고 경고하고 있다. (모짜르트는 첼로 협주곡을 만들지 않았다는 정보를 학습하지 않았고 적당히 픽셀을 뭉개면서 흐릿하게 처리한 것이 협주곡이 9번까지 있다는 답변으로 나타난 것이다.)

– 이미지 확대 프로그램이 뭉개진 픽셀을 복원할 때 주변 픽셀과 비교해서 평균으로 뭉뚱그리는 것과 비슷하지만 당연히 실제와는 다르고, 그게 그림이 아니라 텍스트라면 단순히 중요한 부분이 생략되는 걸 넘어 전혀 엉뚱한 내용을 토해낼 수도 있기 때문. (ZIP 파일은 무손실 압축이지만 JPEG는 손실 압축이다. 테트 창은 지금 정보를 손실 압축해도 되느냐고 묻고 있는 것이다.)

– 사람들이 열광하는 건 단순히 어딘가에 있는 텍스트를 긁어다 보여주는 게 아니라 여러 텍스트를 요약해서(압축해서) 보여주기 때문에 그게 GPT의 생각인 것 같은 오해를 불러 일으키기 때문. JPEG 파일로 비유하면, 손실 압축인데 무손실 압축보다 더 선명하게 보이는 것 같은 착시 현상. (실제로 그럴 리가 없잖아.)
– 테드 창의 통찰 가운데 가장 놀라운 대목은 이런 부분이다. 100만 개의 계산 결과가 담겨 있는 텍스트 파일을 압축할 수도 있겠지만 좀 더 확실하게 용량을 줄이려면 더하기와 빼기, 곱하기 등의 연산 원리를 이해하고 계산기 프로그램의 코드를 만드는 것이다.
– 지금 GPT-3은 단순히 방대한 데이터를 압축하는 것과 같은 수준인데, 만약 원리를 이해하고 직접 통찰을 끌어낼 수 있다면(상대성 원리를 요약해서 설명하는 게 아니라 실제로 그 원리를 이해한다면) 그때는 단순히 세상의 정보를 요약하는 수준을 넘어설 수도 있다는 이야기다. 그때는 손실 압축이라고 할 수 없는 경지에 이를 테니까.

– 또 하나 흥미로운 대목은 언어 모델의 학습 데이터에 AI가 만든 텍스트가 포함될 경우 웹이 갈수록 더 흐릿해 질 거라는 경고다. 당연히 복잡한 필터를 거치겠지만 만약 사람들이 AI의 도움을 받아 콘텐츠를 만들고 그 콘텐츠를 AI가 다시 학습하는 피드백이 확산되면 어떤 일이 벌어질까. (실제로 지금 벌어지고 있는 일이다.)
– 테드 창이 그래도 희망을 갖는 건 원본을 링크하는 방식의 웹은 사라지지 않을 것이고 인간의 독창적인 아이디어는 여전히 원본으로서 가치를 갖게 될 거라고 보기 때문이다.
– 다른 사람의 아이디어를 카피하는 것으로 독창적인 아이디어를 끌어낼 수 없다는 테드 창의 진단은 GPT 시대에도 유효할까? Chat-GPT가 그럴 듯한 소설을 쓰곤 하지만 그게 (당분간은) 결코 인간을 뛰어넘을 수 없을 거란 이야기다. 아마도 이미 충분히 많은 설명 자료가 있는 상대성 원리를 이해하는 것보다 세상에 없는 독창적인 아이디어를 만들어내는 게 훨씬 높은 수준의 두뇌 활동이라고 보는 듯.
– (테드 창 정도니까 이런 이야기를 한다 싶지만. 아직은 공포에 빠질 것까진 없고 그렇다고 냉소하거나 평가 절하할 단계도 아니다. 정보를 패키징하는 작업에는 유효하겠지만 사실 확인이 필요한 작업에는 위험할 수도 있다. )
– (결국 세상의 모든 지식을 다 저장했더라도 어떤 질문에 몇 줄로 요약해서 답변을 하려면 문제의 정의와 생략과 추론, 판단이 필요하다. 단순히 압축과 요약으로는 한계가 있을 수밖에 없다는 이야기다.)

– (테드 창의 질문을 한 줄로 요약하면 “이 흐릿함을 어떻게 할 건데?”)
– (정확히 언급하지는 않았지만 테드 창은 지금 이 정도로 싱귤래리티를 이야기하기는 이르다고 보는 것 같다. GPT-4가 나오더라도 그때 가봐야 안다는 정도?)

– 정리하면서 보니 이 글의 부제가 “OpenAI’s chatbot offers paraphrases, whereas Google offers quotes. Which do we prefer?”다. 지금 내가 쓴 이런 종류의 글(손실 압축에 아마도 왜곡도 많을 것이다, 필요하면 원본을 찾아 읽으면 된다.)도 Chat-GPT에게 넘겨주게 될까. 테드 창의 답변은 아니라는 것이다. 누군가의 생각을 나누는 것은 아직은 AI가 대체할 수 없는 영역. 테드 창의 통찰을 AI가 우리에게 던져 줄 수 없는 것처럼.

leejeonghwan.com audio

절벽에서 뛰어내리면서 비행기를 조립한다는 것.

Mar 28, 2023

오늘 아침 주주총회를 끝으로 미디어오늘에서 제 역할은 끝났습니다. 오후에는 자유언론실천재단에서 “ChatGPT와 저널리즘의 책임”을 주제로 특강이 있는데 이게 제가 미디어오늘 대표로 나서는 마지막 대외 행사가 되겠네요. 끝나고 선배들 저녁 식사 대접을 하기로 했습니다. 다음 주부터 몇 가지 계획이 있는데요. 1. 4월부터 슬로우뉴스 대표를 맡기로 했습니다. 유한회사 슬로우뉴스를 주식회사로 전환하고 제가 100% 지분을 인수하기로 했습니다. 기자들도 뽑고 콘텐츠도...

라즈베리 파이 오디오 만들기.

Mar 12, 2023

시간 날 때마다 만들었던 라즈베리파이 오디오. 드디어 완성. 사실 별 거 없는데 여기저기서 부품 조달하고 거기에 맞춰 도면 만드는 게 힘들었습니다. build log는 영어로. This is my new network audio system. All in one Integrated Amplifier. 1. Raspberry Pi 4B. 2. Hifiberry DAC+DSP. 3. 7 inch touch screen for raspberry pi. 4. Chromecast...

미디어오늘을 떠납니다.

Mar 11, 2023

미디어오늘에 경력 기자로 입사해 편집국장으로 3년, 사장으로 6년을 지냈습니다. 다행히 월급날을 한 번도 밀리지 않았고요. 열심히 벌어서 금융 부채를 모두 정리했고 만성적인 자본잠식에서 벗어났습니다. 언론사 경영이라는 게 날마다 전쟁 같았지만 한 번도 원칙과 정도를 벗어나지 않았다고 자신할 수 있습니다. 제가 지속가능한 미디어오늘을 위한 성장 엔진을 만드는 데 기여했다면 지난 15년이 헛되지 않았다고 생각할 수 있을 것 같습니다. 미디어오늘 지면에 대해서는 자부심과 아쉬움이...

더 나은 세상은 가능하다, 이정환닷컴!

Join

Subscribe For Updates.

이정환닷컴 뉴스레터를 구독하세요.

