프로그래밍 관련 ChatGPT 답변 중 52%에 틀린 정보가 포함돼

Phil2030 (211.♡.217.192)

2024년 5월 21일 PM 10:15 · 수정됨(05. 22. 13:47)

조회 3,366 공감 0

프로그래머들의 온라인 도움 요청 행동에서 Q&A 플랫폼은 매우 중요한 역할을 해왔습니다. 그러나 최근 ChatGPT의 인기로 인해 이러한 추세가 변화하고 있습니다. 이러한 인기에도 불구하고 프로그래밍 질문에 대한 ChatGPT 답변의 특성을 종합적으로 평가한 연구는 없었습니다. 이 격차를 메우고자 우리는 Stack Overflow의 517개 프로그래밍 질문에 대한 ChatGPT 답변을 심층 분석하여 정확성, 일관성, 포괄성 및 간결성을 검토했습니다.

또한 대규모 언어학적 분석과 사용자 연구를 통해 언어적, 인간적 관점에서 ChatGPT 답변의 특성을 이해하고자 했습니다. 우리 분석 결과 ChatGPT 답변의 52%가 잘못된 정보를 포함하고 77%가 장황한 것으로 나타났습니다. 그럼에도 불구하고 사용자 연구 참가자들은 포괄성과 잘 표현된 언어 스타일 덕분에 35%의 경우 ChatGPT 답변을 선호했습니다. 하지만 39%의 경우에는 ChatGPT 답변의 잘못된 정보를 간과했습니다.

이는 프로그래밍 질문에 대한 ChatGPT 답변의 잘못된 정보를 바로잡고, 표면적으로 올바른 답변에 내재된 위험에 대한 인식을 높일 필요가 있음을 시사합니다.

<<Claude에서 번역한 글입니다>>

https://dl.acm.org/doi/pdf/10.1145/3613904.3642596

하

하이드로이드

24.05.21 · 112.♡.30.29

이래서 ai가 내놓은 솔루션은 반드시 검증이 필요하고 고도로 숙련된 전문가는 ai가 판치는 미래에도 여전히 중요할겁니다.
개

개내대래매배새

24.05.22 · 14.♡.253.163

코파일럿도 비슷하겠죠?

저도 GPT 한테 코딩 많이 물어보는 편인데, 아주 도움이 될때도 만족스럽지 않을때도 있습니다.
그런데 GPT 는 복붙해서 물어봐야 하는 단점이 있어서 API 로 연결할 수 있는 코파일럿 유료 결제해야 하나 고민하고 있습니다.
토

토피아

24.05.22 · 220.♡.233.73

3.5 turbo로 실험한거네요 4o로 하면 꽤 달라질걸요
런

런타임 → 토피아

24.05.22 · 175.♡.101.232

4o가 나온 시점에 언제적 3.5 turbo를...했는데 링크 들어가보니 논문이군요
R

Realtime

24.05.22 · 75.♡.158.112

"저는 html로 프로그래밍해요!!"
하

하늘만이

24.05.22 · 106.♡.69.204

많은 답변에서 모르면 모른다 하면 되는데 지어내서 알려주는게 큰 문제 같습니다.
헤

헤에

24.05.22 · 203.♡.8.208

Copilot 써보면 분명 좋기는 한데, 검증 안하고 넘어간 코드가 꼭 문제를 일으키죠.
검증단계에서 찾아내면 상관이 없기는 한데, 이게 릴리즈까지 넘어갈 수도 있으니 문제없겠거니 하고 검증안하면 탈납니다...
박

박재혁

24.05.22 · 14.♡.180.48

chat gpt가 대략적인 코드만 알려줘도 매우 큰 도움이 되더라구요.
google 검색으로 했으면 하루종일 걸렸을 문제를 gpt를 이용해서 3시간만에 해결했습니다.
gtp가 안전한 코드( 표현이 맞나?)를 제공하지 않는다. 이건 동의합니다.
현

현자타임

24.05.22 · 211.♡.189.42

재작년에 나온 GPT 3.5 기준입니다. 최근 버전 성능은 기사(논문)에 나온 것과 현격한 차이가 있습니다.
N

NicoloC

24.05.22 · 103.♡.78.142

저는 70%정도 도움이 되고있어서 직원처럼 부리고 있습니다.
다만 30% 정도에서 계속 같은 답변이 뱅뱅돌거나 직전에 붙여넣기한 코드임에도 틀리게 나온경우가 있어서 코드보는 눈이 없다면 GPT 사용이 오히려 더 시간이 걸리는 부분도 있을거라 생각합니다.