ChatGPT 바보가 되고있다..?

AI/IT News

ChatGPT 바보가 되고있다..?

SeokjunMan 2023. 10. 11. 23:58

오늘은 챗GPT가 바보가 되어가고 있다는 흥미로운 제목의 기사를 가져와보았다.

간단한 코드 성능 개선과 코드 공부할 때 주로 사용하는 챗GPT4인데,

바보가 되어간다니.. 충격적인 기사제목이었다.

내용은 다음과 같다.

오픈 AI의 챗GPT는 대규모언어모델 LLM으로써 수학문제를 푸는데 있어서는 의사면허 시험을 통과할 정도의 정확도를 가진다.

허나, 가끔 간단한 수학문제풀이에 대한 정확도가 급격히 떨어지는 drift현상도 있다고 한다.

나도 GPT4를 계속 사용하다보면 실제로 얘 왜 갑자기 멍청해졌지?라는 느낌을 받을 때가 한번씩 있었다.

말귀를 못알아먹고 코드도 약간 엉망으로 제시해주는 경우가 정말 가끔 있어서 무슨 느낌인지 공감은 갔다.

미국 스탠퍼드 대학, UC버클리 연구팀은 실제로 수학문제, 코드생성, 미국 의사면허시험, 시각적 추론, 민감한 질문 등에 대한 응답의 신속성 및 정확성을 분석조사했다.

조사 결과, GPT4의 간단한 수학문제에 대한 정확도가 2023년 3월부터 6월까지 정확도가 급락하였음을 볼 수 있었다.
. (논문: How Is ChatGPT’s Behavior Changing over Time?, arxiv)

이러한 드리프트 drift현상은 AI모델이 매우 복잡한 모델의 일부를 개선하려고 할 때, 모델의 다른 부분의 성능이 저하되는 현상이라고 한다.

이렇게 AI모델을 미세조정하여 특정방향으로 강화하면 다른 영역에서 후퇴할 위험이 있어, AI모델을 지속해서 개선하기는 매우 어렵다고 한다.

이 연구팀은 GPT4에서 드리프트 문제를 예상했으나, 생각보다 빠른 시기에 발생하여 매우 놀랐다고 하였다.

이와 관련하여 크립토폴리탄(암호화폐 전문 미디어)는 이러한 AI 드리프트 문제는 프롬프트 엔지니어링이라는 급성장 중인 트렌드와 관련있을 수 있다고 주정했다. 즉, 사용자가 프롬프트를 만들어 AI로부터 특정 응답을 끌어내는 프롬프트 엔지니어링에 대응하기 위해 취해진 우발적 결과일 수 있다는 것이다.

끝으로 연구팀은 GPT4.0, GPT3.5 모두에서 일부 개선사례도 있었다면서 이러한 대규모언어생성 모델에 대해 수천 개의 질문을 던져 체계적인 테스트를 거치며, 시간에 따라 성능의 변화를 지속적으로 분석하고 있다고 밝혔다.

[ 소감 ]

나 또한 예전에 팀프로젝트를하며 OpenAI의 GPT4.0과 3.5의 API를 가져와서, 프롬프트 엔지니어링을 진행한 적이 있다.

여러 한의원의 데이터를 종합하여 해당한의원을 위한 경영피드백 질문을 생성해주는 목적을 위해서였다.

이러한 사용자의 사용이 AI모델로 하여금 이러한 현상을 이끌어 낼 수 있다는 생각이 참신하게 다가왔고, 정말 인간의 뇌와 비슷하다는 생각이 들었다. 인간도 여러 요구사항이 한번에 들어오고 복잡해지면 뇌에 과부하가 오듯이 말이다.

위에서도 언급했듯, 실제로 GPT4.0을 코드와 학습목적으로 자주 사용하는 나에게 이러한 Dift현상을 가끔 경험해본적이있다.

이게 기사에서 말한 dift현상인지는 잘 모르겠으나, 비교적 쉬운 코딩 Task를 요구했는데도 "얘답지 않게 엉망으로 생성해주네?"라고 느낀적이 있다. 대규모 언어 생성모델은 계속 학습시키면 마냥 똑똑해질줄만 알았는데 이러한 변수들이 문제점이 될 줄은 몰랐다.

역시 이 분야는 끊임없이 변수를 예측하고 고민하고 비판적인 사고력 또한 습관적으로 들여야겠다고 생각했다.