AI Harness

Park Jake 큐레이션미리보기 중이에요 — 로그인하면 질문하고, Quest 풀고, 학습할 수 있어요.

AI Harness

Effective harnesses for long-running agents

URL • 5/2/2026

앤스로픽은 여러 컨텍스트 창을 거쳐 며칠간 지속되는 복잡한 작업을 수행할 때 AI 에이전트가 겪는 연속성 문제를 해결하기 위한 효과적인 하네스 구조를 연구했습니다. 이 연구는 세션 간의 메모리 단절로 인해 에이전트가 진행 상황을 잊거나 작업을 성급하게 마무리하는 한계를 극복하는 데 초점을 맞췄습니다.

연구진은 환경을 설정하는 '초기화 에이전트'와 실제 작업을 수행하는 '코딩 에이전트'로 역할을 분리하는 이중 구조 솔루션을 개발했습니다. 초기화 에이전트가 상세한 기능 목록과 Git 저장소를 구축하면, 코딩 에이전트는 단계별로 기능을 구현하며 진행 상황을 텍스트 파일과 커밋 로그로 남겨 다음 세션에 전달합니다.

실험 결과, JSON 기반의 기능 요구사항 목록을 활용하고 브라우저 자동화 도구로 최종 동작을 검증하는 방식이 에이전트의 성능을 크게 향상시켰습니다. 특히 증분 작업 방식을 통해 에이전트가 한 번에 너무 많은 일을 처리하려다 발생하던 컨텍스트 부족 및 코드 품질 저하 문제를 효과적으로 해결했습니다.

다만 AI의 시각적 한계로 인해 일부 브라우저 모달 창을 인식하지 못하는 등 기술적 제약이 여전히 존재합니다. 향후 연구는 이러한 구조를 소프트웨어 개발 외의 과학 연구나 금융 모델링 등 다양한 분야로 확장하고 멀티 에이전트 협업 체계를 최적화하는 데 집중할 계획입니다.

하네스 엔지니어링: 에이전트 우선 세계에서 Codex 활용하기

URL • 5/2/2026

OpenAI는 지난 5개월간 사람이 코드를 단 한 줄도 직접 작성하지 않고, 오직 Codex 에이전트만을 활용하여 소프트웨어 제품을 개발하는 실험을 진행했습니다. 애플리케이션 로직부터 CI 구성, 문서화에 이르기까지 모든 코드를 에이전트가 생성했으며, 이를 통해 수동 작업 대비 약 10배 빠른 개발 속도를 달성했습니다.

엔지니어는 직접 코딩하는 대신 에이전트가 효율적으로 작업할 수 있는 환경과 피드백 루프를 설계하는 ‘하네스 엔지니어링’에 집중했습니다. 에이전트의 가독성을 높이기 위해 리포지토리 지식을 구조화된 지도로 제공하고, 엄격한 아키텍처 계층과 맞춤형 린터를 통해 기계적으로 품질을 제어하는 방식을 사용했습니다.

단 3명의 엔지니어가 약 1,500개의 Pull Request를 처리하며 백만 줄 규모의 코드를 성공적으로 배포했으며, 현재 수백 명의 사용자가 이 제품을 실제로 사용하고 있습니다. 에이전트는 버그 재현, 수정, 검증 및 병합에 이르는 전체 개발 사이클을 자율적으로 수행하며 높은 생산성을 입증했습니다.

이번 실험은 엔지니어의 역할이 코드 작성자에서 의도를 명시하고 시스템을 감독하는 설계자로 재정의되고 있음을 시사합니다. 향후 소프트웨어 개발의 핵심 역량은 코드 구현 능력보다 에이전트가 복잡한 작업을 안정적으로 수행할 수 있도록 돕는 스캐폴딩과 제어 시스템을 구축하는 능력이 될 것입니다.

2 sources

Free study

F451 may display inaccurate information. Please double-check the answers.

Learning History

Sessions 0Questions 0Summaries 0Notes 0Quizzes 0Understanding +0

Effective harnesses for long-running agents

하네스 엔지니어링: 에이전트 우선 세계에서 Codex 활용하기

Studio