- ‘토큰맥싱(tokenmaxxing)’ 트렌드로 인해 개발자들이 결과물의 품질보다 AI 토큰(처리 리소스) 소비량에만 치중하고 있다.
- Claude Code, Cursor, Codex와 같은 도구는 더 많은 코드를 생성하지만, 대부분 사후 수정이 필요해 실제 효율을 떨어뜨린다.
- 초기 코드 채택률은 80%~90%에 달하지만, 수정 작업을 거친 후 실제 유효 비율은 10%~30%에 불과하다.
- 10,000명 이상의 엔지니어 데이터를 분석한 Waydev는 토큰과 같은 입력값 기반의 잘못된 측정이 생산성에 대한 오해를 불러일으킨다고 분석했다.
- GitClear 보고서에 따르면 AI 사용자의 ‘코드 춘(code churn, 코드 수정·삭제율)’은 비사용자보다 9.4배 높다.
- Faros AI는 AI를 고도로 적용했을 때 코드 춘이 최대 861%까지 증가했다고 기록했다.
- Jellyfish는 토큰을 가장 많이 사용하는 개발자가 풀 리퀘스트(PR)는 2배 더 많이 생성하지만 비용은 10배 더 소모하여, 산출량은 늘었으나 가치는 늘지 않았음을 보여주었다.
- 주니어 개발자들은 AI 코드를 더 쉽게 수용하지만, 그만큼 수정해야 할 일도 많아져 기술 부채를 가중시킨다.
📌 결론: 프로그래밍 분야 AI의 거대한 역설: 더 많은 코드를 생성함에도 품질과 효율은 이에 비례하지 않는다. 초기 채택률 80%~90%라는 지표는 생산성의 착각을 불러일으키지만, 실제 장기적 가치를 지닌 코드는 10%~30%뿐이다. 코드 춘이 9.4배, 심지어 861%까지 급증하는 상황에서 기업들은 가치 대신 물량을 확보하기 위해 10배의 토큰 비용을 지불하고 있다. 이는 AI 효율 측정 방식의 변화가 시급함을 시사한다.

