[인포그래픽] ChatGPT는 얼마나 똑똑할까?

[ 매드타임스 한수경 기자] 오픈AI가 개발한 챗GPT는 다양한 상황에서 사람과 유사한 응답을 생성하는 능력으로 인해 엄청난 인기를 얻고있다. 실제로 학생들은 숙제에 챗GPT를 활용하고 있으며, 미국에서는 챗GPT에 대한 접근을 차단하기도 하고 있다.

오프AI는 2023년 3월 27일에 발표된 기술 보고서에서 GPT-4로 알려진 가장 최신 모델에 대한 포괄적인 개요를 제공했다. 이 보고서에는 일련의 테스트 결과가 포함되어 있다. 비주얼 캐피털리스트는 이를 그래픽으로 시각화했다.

챗GPT의 기능을 벤치마킹하기 위해 오픈AI는 다양한 전문 및 학업 시험의 시뮬레이션 테스트를 실행했다. 여기에는 SAT, 변호사 시험, 다양한 AP(Advanced Placement) 파이널이 포함됐다.

성능은 각 시험 유형별 응시자의 가장 최근 점수 분포를 기반으로 백분위수로 측정되었다. 백분위 점수는 다른 응시자의 성적과 비교하여 자신의 성적을 평가하는 방식이다.

오픈AI와 비주얼 캐피털리스트에 따르면, 대부분의 테스트에서 GPT-4(2023년 3월 출시)가 GPT-3.5(2022년 3월 출시)보다 훨씬 더 우수한 성능을 보였다. 그러나 AP 영어와 경쟁 프로그래밍에서는 개선되지 못했다.

AP 영어(및 서면 답변이 필요한 기타 시험)의 경우, ChatGPT의 제출물은 "관련 업무 경험이 있는 1-2명의 자격을 갖춘 외부 계약자가 해당 에세이를 채점"했다. ChatGPT가 적절한 에세이를 작성할 수 있는 것은 분명하지만, 시험의 프롬프트를 이해하는 데 어려움을 겪었을 수 있었다.

경쟁 프로그래밍의 경우, GPT는 10개의 코드포스 대회에 각각 100회씩 도전했다. 코드포스는 참가자들이 복잡한 문제를 풀어야 하는 경쟁 프로그래밍 경연 대회이다. GPT-4의 코드포스 평균 등급은 392점(5백분위수 미만)이며, 단일 대회에서 가장 높은 등급은 약 1,300점이었다. 코드포스 평점 페이지를 참조하면, 최고 점수를 받은 사용자는 3,841점을 받은 중국 출신의 jiangly이다.

GPT-4에서는 GPT-3.5에 비해 사용자 경험을 개선한 것으로 보고됐다.

인터넷 액세스 및 플러그인 GPT-3.5는 인터넷에 액세스할 수 없고 2021년 6월까지의 데이터에 대해서만 학습이 이루어졌다는 점이 제한적이었다. GPT-4를 통해 사용자는 인터넷에 액세스하고, 최신 응답을 제공하며, 더 다양한 작업을 완료할 수 있는 다양한 플러그인에 액세스할 수 있게 된다. 여기에는 익스피디아와 같은 서비스에서 제공하는 타사 플러그인이 포함되며, 이를 통해 챗GPT는 사용자의 휴가 전체를 예약할 수 있다.

시각적 입력 GPT-3.5는 텍스트 입력만 가능했지만, GPT-4는 이미지도 분석할 수 있다. 사용자는 챗GPT에게 사진 설명, 차트 분석, 심지어 밈 설명까지 요청할 수 있다.

더 길어진 컨텍스트 길이 GPT-4는 훨씬 더 많은 양의 텍스트를 처리할 수 있으며 대화를 더 오래 지속할 수 있다. 참고로, GPT-3.5의 최대 요청 값은 4,096토큰으로 약 3,000단어에 해당한다. GPT-4는 8,192 토큰(6,000단어)과 32,768 토큰(24,000단어)의 두 가지 변형이 있다.

한수경 기자 다른기사 보기