leejeonghwan.com

챗 GPT는 웹의 흐릿한 JPEG라는 테드 창의 비유.

테드 창이 본 Chat-GPT. 통찰로 가득한 글이다. 거칠게 요약하면서 코멘트를 달아봤다.

– JPEG 파일은 원본 사진과 다르다. 파일 크기는 줄어들지만 압축 정도에 따라 픽셀의 손실이 발생한다. 확대해 보면 반드시 깨진다.
– 테드 창은 Chat-GPT가 JPEG 이미지와 비슷하다고 본다. 전체적으로 비슷하지만 텍스트를 뭉뚱그리는 과정에서 넘겨짚게 되고 필연적으로 오류가 발생한다고 보기 때문이다.
– 인쇄물을 복사기에 돌리면 거의 비슷한 결과물인데 이걸 다시 복사기에 돌리고 꺼내서 다시 돌리고 100번쯤 하다 보면 전혀 알아볼 수 없게 된다. 테드 창이 우려하는 것도 이런 것.
– 사실에 근거하지 않은 (모짜르트 첼로 협주곡이 몇 번까지 있나요? 같은) 질문에 엉뚱한 답변을 내놓는 것도 GPT가 실제 텍스트를 복붙하는 게 아니기 때문. 이게 강점이면서 한계.
– 사람들이 GPT에 놀라워하는 건 깜박 속아 넘어갈 정도로 그럴 듯한 답변을 내놓기 때문. (“모짜르트 첼로 협주곡은 9번까지 있습니다.”) (아마 이 대목에서 내가 그동안 잘못 알았나 할 사람들이 많을 듯.)
– 테드 창은 정보를 압축하는 과정에서 일부 텍스트가 왜곡되는 것이 불가피하다고 경고하고 있다. (모짜르트는 첼로 협주곡을 만들지 않았다는 정보를 학습하지 않았고 적당히 픽셀을 뭉개면서 흐릿하게 처리한 것이 협주곡이 9번까지 있다는 답변으로 나타난 것이다.)

– 이미지 확대 프로그램이 뭉개진 픽셀을 복원할 때 주변 픽셀과 비교해서 평균으로 뭉뚱그리는 것과 비슷하지만 당연히 실제와는 다르고, 그게 그림이 아니라 텍스트라면 단순히 중요한 부분이 생략되는 걸 넘어 전혀 엉뚱한 내용을 토해낼 수도 있기 때문. (ZIP 파일은 무손실 압축이지만 JPEG는 손실 압축이다. 테트 창은 지금 정보를 손실 압축해도 되느냐고 묻고 있는 것이다.)

– 사람들이 열광하는 건 단순히 어딘가에 있는 텍스트를 긁어다 보여주는 게 아니라 여러 텍스트를 요약해서(압축해서) 보여주기 때문에 그게 GPT의 생각인 것 같은 오해를 불러 일으키기 때문. JPEG 파일로 비유하면, 손실 압축인데 무손실 압축보다 더 선명하게 보이는 것 같은 착시 현상. (실제로 그럴 리가 없잖아.)
– 테드 창의 통찰 가운데 가장 놀라운 대목은 이런 부분이다. 100만 개의 계산 결과가 담겨 있는 텍스트 파일을 압축할 수도 있겠지만 좀 더 확실하게 용량을 줄이려면 더하기와 빼기, 곱하기 등의 연산 원리를 이해하고 계산기 프로그램의 코드를 만드는 것이다.
– 지금 GPT-3은 단순히 방대한 데이터를 압축하는 것과 같은 수준인데, 만약 원리를 이해하고 직접 통찰을 끌어낼 수 있다면(상대성 원리를 요약해서 설명하는 게 아니라 실제로 그 원리를 이해한다면) 그때는 단순히 세상의 정보를 요약하는 수준을 넘어설 수도 있다는 이야기다. 그때는 손실 압축이라고 할 수 없는 경지에 이를 테니까.

– 또 하나 흥미로운 대목은 언어 모델의 학습 데이터에 AI가 만든 텍스트가 포함될 경우 웹이 갈수록 더 흐릿해 질 거라는 경고다. 당연히 복잡한 필터를 거치겠지만 만약 사람들이 AI의 도움을 받아 콘텐츠를 만들고 그 콘텐츠를 AI가 다시 학습하는 피드백이 확산되면 어떤 일이 벌어질까. (실제로 지금 벌어지고 있는 일이다.)
– 테드 창이 그래도 희망을 갖는 건 원본을 링크하는 방식의 웹은 사라지지 않을 것이고 인간의 독창적인 아이디어는 여전히 원본으로서 가치를 갖게 될 거라고 보기 때문이다.
– 다른 사람의 아이디어를 카피하는 것으로 독창적인 아이디어를 끌어낼 수 없다는 테드 창의 진단은 GPT 시대에도 유효할까? Chat-GPT가 그럴 듯한 소설을 쓰곤 하지만 그게 (당분간은) 결코 인간을 뛰어넘을 수 없을 거란 이야기다. 아마도 이미 충분히 많은 설명 자료가 있는 상대성 원리를 이해하는 것보다 세상에 없는 독창적인 아이디어를 만들어내는 게 훨씬 높은 수준의 두뇌 활동이라고 보는 듯.
– (테드 창 정도니까 이런 이야기를 한다 싶지만. 아직은 공포에 빠질 것까진 없고 그렇다고 냉소하거나 평가 절하할 단계도 아니다. 정보를 패키징하는 작업에는 유효하겠지만 사실 확인이 필요한 작업에는 위험할 수도 있다. )
– (결국 세상의 모든 지식을 다 저장했더라도 어떤 질문에 몇 줄로 요약해서 답변을 하려면 문제의 정의와 생략과 추론, 판단이 필요하다. 단순히 압축과 요약으로는 한계가 있을 수밖에 없다는 이야기다.)

– (테드 창의 질문을 한 줄로 요약하면 “이 흐릿함을 어떻게 할 건데?”)
– (정확히 언급하지는 않았지만 테드 창은 지금 이 정도로 싱귤래리티를 이야기하기는 이르다고 보는 것 같다. GPT-4가 나오더라도 그때 가봐야 안다는 정도?)

– 정리하면서 보니 이 글의 부제가 “OpenAI’s chatbot offers paraphrases, whereas Google offers quotes. Which do we prefer?”다. 지금 내가 쓴 이런 종류의 글(손실 압축에 아마도 왜곡도 많을 것이다, 필요하면 원본을 찾아 읽으면 된다.)도 Chat-GPT에게 넘겨주게 될까. 테드 창의 답변은 아니라는 것이다. 누군가의 생각을 나누는 것은 아직은 AI가 대체할 수 없는 영역. 테드 창의 통찰을 AI가 우리에게 던져 줄 수 없는 것처럼.

.

www.leejeonghwan.com
leejeonghwan.com audio
Exit mobile version