AI한테 탄수화물 계산을 2만 번 시켰더니 벌어진 참사 (의료용 AI 주의보)

안녕하세요, 10년 차 IT 해결사 DevBJ입니다.
요즘 다들 개인 프로젝트나 업무에 AI API 하나씩은 연동해서 자동화 스크립트 돌리고 계시죠? 저도 파이썬으로 AI 에이전트 파이프라인 구축해 놓고 “알아서 잘 하겠지~” 하고 믿어버리는 편인데요. 오늘 아주 등골이 오싹해지는, 하지만 개발자라면 꼭 알아야 할 흥미로운 연구 결과가 있어서 급하게 키보드를 잡았습니다.

혹시 당뇨병 관리 앱처럼 생명이 오가는 서비스에 AI를 붙일 계획이 있으시다면, 오늘 글은 꼭 끝까지 읽어보시길 강력 추천합니다! 🔥

똑같은 사진, 똑같은 질문… 그런데 대답이 다르다? 🤖

우리가 코딩할 때 제일 킹받는 순간이 언제인가요? 바로 “어제는 됐는데 오늘은 안 될 때”죠. 컴퓨터는 원래 입력이 같으면 출력도 같아야(Deterministic) 정상입니다.

그런데 최근 한 연구자가 AI에게 아주 무식하고도 확실한 실험을 했습니다. 13개의 실제 식사 사진을 준비해서 GPT-5.4, Claude 4.6 Sonnet, Gemini 2.5/3.1 Pro 같은 최신 AI 모델들에게 “이 식사의 탄수화물은 몇 그램이야?”라고 26,900번 넘게 물어본 거죠.

결과가 어땠을까요? 단 한 번도 완벽하게 똑같은 대답을 일관되게 내놓지 않았습니다. 와… 이게 단순히 메뉴 추천해 주는 거면 몰라도, 탄수화물 계산은 당뇨 환자의 인슐린 투여량과 직결되거든요. 잘못하면 저혈당 쇼크가 올 수 있는 치명적인 문제입니다.

AI 모델별 오차율 비교 (Claude vs Gemini) 📊

연구자는 이 실험을 진행할 때 AI의 창의성을 죽이고 가장 기계적으로 답변하게 만드는 ‘최저 무작위성(Lowest randomness)’ 세팅을 썼습니다. 그럼에도 불구하고 모델마다 편차가 컸는데요.

Claude 4.6 Sonnet (안정적): 대부분의 이미지에서 탄수화물 추정치 오차율이 5% 미만으로 그나마 한곳에 옹기종기 모여 있었습니다.
Gemini 2.5 & 3.1 Pro (불안정): 오차율이 **10~20%**를 훌쩍 넘는 경우가 허다했습니다. 똑같은 빠에야(Paella) 사진을 보여줘도 어제는 50g, 오늘은 60g이라고 대답한 셈이죠.

DevBJ의 실전 팁: 온도(Temperature) 0의 배신 🛠️

보통 저 같은 엔지니어들은 AI API를 자동화 파이프라인에 태울 때 일관성을 위해 아래처럼 temperature 값을 0으로 고정합니다.

# 우리가 철석같이 믿는 세팅 (하지만 Vision AI는 다릅니다!)
response = client.chat.completions.create(
    model="gpt-5.4", # 또는 gemini-3.1-pro
    messages=[
        {"role": "user", "content": "첨부된 사진의 탄수화물 양을 정확한 숫자로만 대답해."}
    ],
    temperature=0.0 # "제발 딴소리하지 말고 똑같이만 대답해!" 라는 의미
)

예전에 저도 자동화 스크립트 짤 때, 결괏값이 자꾸 튀어서 내 정규표현식이 틀린 줄 알고 며칠 밤을 새웠던 기억이 나네요 ^^;; 텍스트만 다루는 LLM은 온도를 0으로 주면 꽤 일관된 답을 주지만, 이미지를 분석하는 Vision AI는 이미지를 토큰으로 변환하는 과정 자체에서 미세한 노이즈가 발생하기 때문에 매번 값이 흔들릴 수밖에 없습니다.

주의할 점은!!!! AI가 주는 결과값(특히 이미지 기반)을 절대 100% 맹신해서 산술 연산의 ‘절대 기준값’으로 쓰면 안 된다는 겁니다.

마무리 💡

추천 대상: AI API를 활용해 헬스케어, 금융 등 정밀한 데이터 자동화 서비스를 기획/개발하시는 분들.
한 줄 요약: AI의 눈(Vision)은 온도를 0으로 얼려도 매번 흔들리니, 생명이 걸린 숫자 앞에서는 반드시 인간의 교차 검증을 넣자!

틀린 내용이나 더 궁금한 점이 있다면 언제든 알려주세요~~ 아는 만큼 또 정리해 볼까 합니다. 자세한 연구 결과가 궁금하신 분들은 원본 리포트를 참고해 보세요!

DevBJ | No Bio, Just Log