워싱턴 주립대 연구: 챗GPT 과학적 가설 평가 한계 밝혀

2026.03.16 10:24

워싱턴 주립대학교 연구 챗GPT의 과학적 가설 평가 능력에 대한 한계 지적

워싱턴 주립대학교 연구팀은 메스üt 치크 교수를 중심으로 수행한 최신 연구를 통해 챗GPT의 과학적 가설 검증 능력에 대한 심각한 의문을 제기했습니다. 풀먼에 위치한 이 연구기관은 과학 논문에서 추출한 700개 이상의 가설을 챗GPT에 입력하여 분석한 결과, 2024년 기준 정확도는 76.5%였으며, 2025년에는 약간 향상되어 80%를 기록했습니다. 그러나 이는 무작위 추측보다 약 60% 더 나은 수준에 불과해, 연구자들은 챗GPT의 신뢰도를 낮게 평가했습니다. 특히 거짓 가설을 구별하는 능력은 매우 제한적이었으며, 정확도는 16.4%에 불과했습니다.

연구의 핵심 문제점 중 하나는 챗GPT의 응답 일관성의 부족이었습니다. 동일한 질문에 대해 10번의 응답 중 일관성 있는 정확성을 보인 비율이 겨우 73%에 머물렀습니다. 치크 교수는 ‘동일한 질문에 대해 계속해서 상이한 답변을 제공하는 것은 응답의 일관성 부족을 명확히 보여줍니다’라고 강조했습니다.

이러한 결과는 기업 관리자들에게 AI 결과를 신중하게 검토하고 회의적인 시각으로 접근해야 함을 시사합니다. 치크 교수는 ‘현재의 AI 기술은 우리가 세상을 이해하는 복잡성을 완전히 포착하지 못하며, 단지 정보를 저장하고 일부 통찰력을 제공하는 데 그치고 있습니다’라고 설명했습니다. 연구는 챗GPT-3.5와 업데이트된 챗GPT-5 미니 버전 간의 정확도 차이가 미미함을 확인했습니다.

결론적으로, 이 연구는 인공 일반 지능이 아직 복잡한 추론 능력을 완전히 따라잡지 못하고 있음을 보여주며, 비즈니스 환경에서의 AI 활용 시 주의가 필요함을 다시 한번 강조합니다.

트위터 공유: 워싱턴 주립대학교 연구 챗GPT의 과학적 가설 평가 능력에 대한 한계 지적

워싱턴 주립대학교 연구 챗GPT의 과학적 가설 평가 능력에 대한 한계 지적