특화 데이터셋 구축으로 AI 코드 생성 한계 극복

LLM 기반 신뢰형 코드 생성기술을 개발한 ETRI 개발진(오른쪽부터 마유승, 우예린, 한호재, 이기호, 여상엽, 전형국, 김상철 박사). [사진=한국전자통신연구원]
LLM 기반 신뢰형 코드 생성기술을 개발한 ETRI 개발진(오른쪽부터 마유승, 우예린, 한호재, 이기호, 여상엽, 전형국, 김상철 박사). [사진=한국전자통신연구원]
한국전자통신연구원(ETRI·원장 방승찬)은 인공지능(AI)이 소스코드를 자동으로 생성할 때 기능과 품질을 함께 보장하는 'LLM 기반 신뢰형 코드 생성 기술'을 개발했다고 10일 밝혔다.

이번 기술은 대규모 언어모델(LLM)을 활용해 개발자의 의도뿐 아니라 코드의 안정성·보안성 등 품질 요소까지 반영하도록 한 것이 특징이다. 기존 AI 코드 생성 기술이 기능 구현에만 초점을 맞췄다면 이번 기술은 품질과 신뢰성 같은 비기능 요구사항까지 고려해 구조적으로 코드를 생성한다.

예를 들어 로그인 기능을 요청하면 단순한 인증 로직뿐 아니라 입력 검증, 예외 처리, 계정 잠금 등 보안 관리 요소가 자동으로 포함된다. 파일 처리 기능에서는 대용량 데이터 처리 효율과 메모리 관리 등 성능 요소가 함께 반영된다.

ETRI는 이번 연구를 위해 C/C++ 언어에 특화된 대규모 학습 데이터셋 약 4만 건을 자체 구축했다. 운영체제·반도체·임베디드 시스템 등 산업 핵심 분야에서 널리 쓰이지만 AI 학습 데이터가 부족했던 C/C++ 환경의 한계를 극복하기 위한 것이다.

코드 수집부터 품질 평가, 명세 생성까지 자동화한 시스템을 개발해 고품질 데이터를 확보했으며 이를 AI 모델 4종에 적용한 결과 코드 품질이 전반적으로 향상됐다.

ETRI는 지난달 29일 'PULSE 코드 자동화 오픈소스 기술 워크숍'을 열고 △오토코딩 인프라 △프롬프트 최적화 △C/C++ 데이터셋 구축 과정 △AI 모델 성능 개선 결과 등을 공개했다. 일부 기술은 '깃허브(GitHub)'를 통해 오픈소스로 배포됐다.

정영준 온디바이스AI연구본부장은 "향후 산업 현장에서 실제 검증을 거쳐 다양한 프로그래밍 언어와 산업 특화 영역으로 기술을 확대 적용할 계획"이라며 "이를 통해 국내 소프트웨어 개발 생태계의 경쟁력 강화에 크게 기여할 것으로 기대된다"고 말했다.
저작권자 © 헬로디디 무단전재 및 재배포 금지