프로그래밍 관련 ChatGPT 답변 중 52%에 틀린 정보가 포함돼

알림
|
X

페이지 정보

작성자 Phil2030 211.♡.217.192
작성일 2024.05.21 22:15
분류 IT
3,170 조회
3 추천
쓰기

본문

프로그래머들의 온라인 도움 요청 행동에서 Q&A 플랫폼은 매우 중요한 역할을 해왔습니다. 그러나 최근 ChatGPT의 인기로 인해 이러한 추세가 변화하고 있습니다. 이러한 인기에도 불구하고 프로그래밍 질문에 대한 ChatGPT 답변의 특성을 종합적으로 평가한 연구는 없었습니다. 이 격차를 메우고자 우리는 Stack Overflow의 517개 프로그래밍 질문에 대한 ChatGPT 답변을 심층 분석하여 정확성, 일관성, 포괄성 및 간결성을 검토했습니다.



또한 대규모 언어학적 분석과 사용자 연구를 통해 언어적, 인간적 관점에서 ChatGPT 답변의 특성을 이해하고자 했습니다. 우리 분석 결과 ChatGPT 답변의 52%가 잘못된 정보를 포함하고 77%가 장황한 것으로 나타났습니다. 그럼에도 불구하고 사용자 연구 참가자들은 포괄성과 잘 표현된 언어 스타일 덕분에 35%의 경우 ChatGPT 답변을 선호했습니다. 하지만 39%의 경우에는 ChatGPT 답변의 잘못된 정보를 간과했습니다.



이는 프로그래밍 질문에 대한 ChatGPT 답변의 잘못된 정보를 바로잡고, 표면적으로 올바른 답변에 내재된 위험에 대한 인식을 높일 필요가 있음을 시사합니다.


<<Claude에서 번역한 글입니다>>


댓글 11 / 1 페이지

하이드로이드님의 댓글

작성자 no_profile 하이드로이드 (112.♡.30.29)
작성일 05.21 23:25
이래서 ai가 내놓은 솔루션은 반드시 검증이 필요하고 고도로 숙련된 전문가는 ai가 판치는 미래에도 여전히 중요할겁니다.

개내대래매배새님의 댓글

작성자 no_profile 개내대래매배새 (14.♡.253.163)
작성일 05.22 00:06
코파일럿도 비슷하겠죠?

저도 GPT 한테 코딩 많이 물어보는 편인데, 아주 도움이 될때도 만족스럽지 않을때도 있습니다.
그런데 GPT 는 복붙해서 물어봐야 하는 단점이 있어서  API 로 연결할 수 있는 코파일럿 유료 결제해야 하나 고민하고 있습니다.

토피아님의 댓글

작성자 no_profile 토피아 (220.♡.233.73)
작성일 05.22 01:40
3.5 turbo로 실험한거네요 4o로 하면 꽤 달라질걸요

표면장력님의 댓글의 댓글

대댓글 작성자 no_profile 표면장력 (175.♡.101.232)
작성일 05.22 08:02
@토피아님에게 답글 4o가 나온 시점에 언제적 3.5 turbo를...했는데 링크 들어가보니 논문이군요

Realtime님의 댓글

작성자 Realtime (75.♡.158.112)
작성일 05.22 07:55
"저는 html로 프로그래밍해요!!"

하늘만이님의 댓글

작성자 하늘만이 (106.♡.69.204)
작성일 05.22 07:57
많은 답변에서 모르면 모른다 하면 되는데 지어내서 알려주는게 큰 문제 같습니다.

헤에님의 댓글

작성자 헤에 (203.♡.8.208)
작성일 05.22 09:56
Copilot 써보면 분명 좋기는 한데, 검증 안하고 넘어간 코드가 꼭 문제를 일으키죠.
검증단계에서 찾아내면 상관이 없기는 한데, 이게 릴리즈까지 넘어갈 수도 있으니 문제없겠거니 하고 검증안하면 탈납니다...

박재혁님의 댓글

작성자 박재혁 (14.♡.180.48)
작성일 05.22 10:51
chat gpt가 대략적인 코드만 알려줘도 매우 큰 도움이 되더라구요.
google 검색으로 했으면 하루종일 걸렸을 문제를 gpt를 이용해서 3시간만에 해결했습니다. 
gtp가 안전한 코드( 표현이 맞나?)를 제공하지 않는다. 이건 동의합니다.

현자타임님의 댓글

작성자 현자타임 (211.♡.189.42)
작성일 05.22 11:46
재작년에 나온 GPT 3.5 기준입니다. 최근 버전 성능은 기사(논문)에 나온 것과 현격한 차이가 있습니다.

NicoloC님의 댓글

작성자 NicoloC (103.♡.78.142)
작성일 05.22 12:46
저는 70%정도 도움이 되고있어서 직원처럼 부리고 있습니다.
다만 30% 정도에서 계속 같은 답변이 뱅뱅돌거나 직전에 붙여넣기한 코드임에도 틀리게 나온경우가 있어서 코드보는 눈이 없다면 GPT 사용이 오히려 더 시간이 걸리는 부분도 있을거라 생각합니다.

RaPo님의 댓글

작성자 no_profile RaPo (27.♡.253.142)
작성일 05.22 13:47
오픈소스 LLM들로 크로스 체크하면 됩니다.
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색