컨텍스트 엔지니어링: 아무도 안 가르쳐주는 AI 개발 핵심 스킬

모든 튜토리얼이 프롬프트 엔지니어링을 가르쳐요. 지시를 명확하게 쓰세요. 퓨샷 예제를 넣으세요. 시스템 메시지를 추가하세요. 간단한 데모면 그걸로 충분하죠.

근데 뭔가 진짜 서비스를 만들기 시작하면요? 대화 기록을 기억해야 하는 고객 지원 에이전트, 코드베이스 전체를 이해해야 하는 코딩 어시스턴트, 200페이지짜리 PDF를 분석하는 파이프라인. 이런 걸 만들 때 프롬프트 엔지니어링은 한계에 부딪혀요. 프롬프트가 나빠서가 아니에요. 풀고 있는 문제 자체가 틀렸기 때문이에요.

진짜 과제는 모델에게 뭐라고 말할지가 아니었어요. 모델이 응답을 생성할 때 어떤 정보에 접근할 수 있느냐가 핵심이에요. 이 영역에는 이름이 있어요. 컨텍스트 엔지니어링이라고 합니다.

프롬프트 엔지니어링이 "올바른 단어를 고르는 것"이라면, 컨텍스트 엔지니어링은 "올바른 지식을 고르는 것"이에요. 뛰어난 컨설턴트에게 맨손으로 질문하는 것과, 관련 문서·대화 기록·도구를 다 셋업해놓고 질문하는 것의 차이죠.

이 글에서는 컨텍스트 엔지니어링이 정확히 뭔지, 왜 프롬프트 엔지니어링보다 중요한지, 그리고 프로덕션에서 실제로 쓰이는 구체적인 기법들을 전부 다뤄볼게요.

컨텍스트 엔지니어링이란 정확히 뭘까요?

컨텍스트 엔지니어링은 LLM의 컨텍스트 윈도우에 들어가는 정보를 선별·구조화·관리하는 체계적 실천이에요. 출력 품질을 극대화하면서 토큰 한계와 비용 예산 안에 머물도록 하는 거예요.

LLM의 컨텍스트 윈도우를 책상이라고 생각해보세요. 프롬프트 엔지니어링은 좋은 메모를 쓰는 거예요. 컨텍스트 엔지니어링은 책상 위의 모든 것을 큐레이션하는 거예요. 참조 문서, 도구, 대화 기록, 예시까지 전부요. 거기 앉아 있는 사람이 최상의 답을 줄 수 있도록 세팅하는 거죠.

┌─────────────────────────────────────────┐
│           컨텍스트 윈도우                │
│                                         │
│  ┌─────────────────────────────────┐    │
│  │  시스템 지시사항                 │    │
│  │  (역할, 제약조건, 형식)          │    │
│  └─────────────────────────────────┘    │
│  ┌─────────────────────────────────┐    │
│  │  검색된 지식 (RAG)              │    │
│  │  (문서, 코드, 데이터)            │    │
│  └─────────────────────────────────┘    │
│  ┌─────────────────────────────────┐    │
│  │  도구 정의                      │    │
│  │  (사용 가능한 함수/API)          │    │
│  └─────────────────────────────────┘    │
│  ┌─────────────────────────────────┐    │
│  │  대화 기록                      │    │
│  │  (이전 메시지 + 맥락)            │    │
│  └─────────────────────────────────┘    │
│  ┌─────────────────────────────────┐    │
│  │  현재 사용자 쿼리                │    │
│  │  (사용자가 방금 물어본 내용)      │    │
│  └─────────────────────────────────┘    │
│                                         │
│  합계: N 토큰 안에 맞춰야 함             │
│  (예: 128K, 200K, 1M, 2M)              │
└─────────────────────────────────────────┘

모든 구성요소가 같은 유한한 공간을 두고 경쟁해요. 대화 기록을 많이 넣으면 검색 지식이 밀려나고, 도구 정의를 많이 넣으면 예시를 줄여야 해요. 전부 다 넣으면 토큰 예산(과 API 비용)이 터져요.

컨텍스트 엔지니어링은 이 트레이드오프를 잘 관리하는 기술이에요.

왜 프롬프트 엔지니어링만으로는 부족할까요?

구체적인 시나리오로 살펴볼게요.

이커머스 플랫폼의 고객 지원 에이전트를 만들고 있다고 해봐요. 고객이 이렇게 써요: "지난주에 주문한 거 아직도 안 왔어요. 이번이 세 번째예요. 환불해주세요."

프롬프트 엔지니어링이 잘 된 시스템이면 톤은 괜찮을 거예요. 공감적이고, 전문적이고, 해결 지향적이죠. 근데 컨텍스트 엔지니어링이 안 돼 있으면 이런 걸 모르잖아요:

어떤 주문을 말하는 건지
실제 주문 내역에 뭐가 찍혀 있는지
과거에도 불만을 제기한 적 있는지 (어떻게 해결됐는지)
반복 이슈에 대한 환불 정책이 뭔지
택배사 추적 데이터가 뭘 보여주는지

프롬프트는 멀쩡한데 컨텍스트가 비어 있는 거예요. 그래서 모델이 일반적인 응답을 지어내고, 고객은 더 화가 나요.

컨텍스트 엔지니어링은 모델이 생성하기 전에 올바른 정보가 윈도우 안에 있도록 해줘요:

async function buildSupportContext(customerId: string, message: string) {
  // 1. 고객 데이터 조회
  const customer = await db.customers.findUnique({ where: { id: customerId } });
  const recentOrders = await db.orders.findMany({
    where: { customerId, createdAt: { gte: thirtyDaysAgo } },
    include: { shipments: true },
  });

  // 2. 관련 정책 문서 검색
  const policies = await vectorStore.search(message, {
    namespace: 'support-policies',
    topK: 3,
  });

  // 3. 과거 지원 요청 이력 조회
  const pastTickets = await db.supportTickets.findMany({
    where: { customerId },
    orderBy: { createdAt: 'desc' },
    take: 5,
  });

  // 4. 실시간 배송 상태 확인
  const trackingData = await shippingApi.getStatus(
    recentOrders[0]?.shipments[0]?.trackingNumber
  );

  // 5. 컨텍스트 조립
  return {
    systemPrompt: SUPPORT_AGENT_INSTRUCTIONS,
    context: [
      { role: 'system', content: formatCustomerProfile(customer) },
      { role: 'system', content: formatOrderHistory(recentOrders) },
      { role: 'system', content: formatPolicies(policies) },
      { role: 'system', content: formatPastTickets(pastTickets) },
      { role: 'system', content: formatTrackingData(trackingData) },
      ...conversationHistory,
      { role: 'user', content: message },
    ],
  };
}

이제 모델이 필요한 걸 다 갖게 됐어요. 정확한 주문 내역, 배송 현황, 반복 불만에 대한 환불 정책, 과거 대응 기록. 같은 프롬프트인데 결과가 완전히 달라져요.

컨텍스트 엔지니어링의 5가지 핵심 축

실전 컨텍스트 엔지니어링은 다섯 가지가 맞물려 돌아가요.

1. 컨텍스트 선별: 뭘 넣을 건가

첫 번째 질문은 항상 이거예요: 이 특정 쿼리에 잘 답하려면 어떤 정보가 필요한가?

당연해 보이는데, 대부분의 팀이 전부 다 넣거나(토큰 낭비 + 품질 저하) 너무 적게 넣어요(모델이 추측해야 함).

신호 대 잡음 원칙: 컨텍스트 윈도우의 모든 토큰은 존재의 이유가 있어야 해요. 관련 없는 정보는 토큰만 잡아먹는 게 아니라, 적극적으로 출력 품질을 떨어뜨려요. 연구에서도 정확하지만 관련 없는 컨텍스트를 주면 아예 안 줬을 때보다 성능이 떨어진다는 것이 계속 확인돼요.

// 나쁜 예: 전부 다 때려넣기
const context = await db.documents.findMany(); // 5만 토큰의 잡음

// 좋은 예: 시맨틱 검색 + 관련성 필터링
const relevantDocs = await vectorStore.search(query, { topK: 10 });
const filtered = relevantDocs.filter(doc => doc.score > 0.78);
// 2,000 토큰의 신호

동적 도구 로딩도 핵심 선별 기법이에요. 에이전트가 도구 50개를 갖고 있는데 현재 작업에 3~5개만 관련 있다면, 50개 도구 정의를 전부 넣는 건 수천 토큰을 낭비하면서 모델을 혼란시키는 거예요:

// 나쁜 예: 매번 모든 도구 로드
const tools = getAllTools(); // 50개 도구, 정의만 ~8,000 토큰

// 좋은 예: 의도 분류 기반으로 도구 선택
const intent = await classifyIntent(userMessage);
const tools = getToolsForIntent(intent); // 4개 도구, ~600 토큰

// 더 좋은 예: 2단계 접근
// 1단계: 빠른 모델로 관련 도구 선별
const selectedToolNames = await selectRelevantTools(userMessage, allToolNames);
// 2단계: 선별된 도구 정의만 주입
const tools = selectedToolNames.map(name => toolRegistry.get(name));

2. 컨텍스트 구조화: 어떻게 배치할 건가

같은 정보도 구조가 다르면 결과가 확 달라져요.

위치 편향은 실제로 존재해요. 모델은 컨텍스트 윈도우의 앞부분과 뒷부분에 중간보다 더 많은 주의를 기울여요. "중간에서 길을 잃는(Lost in the Middle)" 문제라고 하는데, 연구로 계속 입증된 현상이에요. 10만 토큰 컨텍스트 한가운데 묻힌 중요한 정보는 사실상 없는 것과 같아요.

// 구조화 예: 핵심 정보를 양쪽 끝에, 명확한 섹션 구분
function buildContext(systemPrompt, retrievedDocs, history, query) {
  return [
    // 시작부 — 높은 주의 영역
    { role: 'system', content: systemPrompt },
    { role: 'system', content: '## 핵심 참조 데이터\n' + mostRelevantDoc },

    // 중간부 — 낮은 주의 영역 (덜 중요한 맥락 배치)
    ...history.slice(0, -3), // 이전 대화 기록
    ...supplementaryDocs,    // 보조 문서

    // 끝부분 — 높은 주의 영역
    ...history.slice(-3),    // 가장 최근 대화
    { role: 'user', content: query },
  ];
}

섹션 구분자도 중요해요. 정책, 고객 데이터, 대화 기록 같이 다른 종류의 정보를 섞을 때 명확한 구조적 마커가 모델의 구분력을 높여줘요:

const context = `
## 고객 프로필
이름: ${customer.name}
계정 상태: ${customer.tier}
총 주문 수: ${customer.orderCount}

## 현재 주문 상태
주문번호 #${order.id} — ${order.date} 주문
상태: ${order.status}
배송 추적: ${tracking.status} — 최종 업데이트: ${tracking.lastUpdate}

## 적용 가능한 정책
${policies.map(p => `- ${p.title}: ${p.summary}`).join('\n')}

## 처리 권한
${agent.refundLimit}원 이하 환불은 에스컬레이션 없이 처리 가능.
그 이상은 상위 담당자에게 이관하세요.
`;

3. 메모리 아키텍처: 과거와 현재를 연결하기

실제 서비스는 대화 간에 기억을 유지해야 해요. 월요일에 프로젝트 아키텍처를 자세히 설명한 사용자가 화요일에도 처음부터 다시 설명해야 하면 안 되잖아요. 여기서 메모리 시스템이 필요해져요.

3계층 메모리 모델이라고 부르는 구조가 있어요. 대부분의 프로덕션 AI 시스템이 이걸 써요:

┌───────────────────────────────────────┐
│  작업 메모리 (컨텍스트 윈도우)          │
│  현재 대화 + 활성 데이터               │
│  용량: 모델의 토큰 한도               │
│  속도: 즉시 (이미 로드됨)              │
├───────────────────────────────────────┤
│  단기 메모리 (세션 저장소)              │
│  최근 대화 요약                       │
│  현재 세션 상태 및 변수                │
│  용량: 압축된 10-50개 항목            │
│  속도: 빠른 검색                      │
├───────────────────────────────────────┤
│  장기 메모리 (영속 저장소)              │
│  사용자 선호도와 과거 결정             │
│  역사적 상호작용 패턴                  │
│  여러 세션에 걸쳐 축적된 도메인 지식    │
│  용량: 사실상 무제한                   │
│  속도: 검색 + 순위 지정 필요           │
└───────────────────────────────────────┘

구현 코드는 이런 흐름이에요:

class MemoryManager {
  constructor(
    private vectorStore: VectorStore,
    private sessionStore: SessionStore,
    private conversationBuffer: Message[] = []
  ) {}

  async buildMemoryContext(userId: string, currentQuery: string): Promise<string> {
    // 1계층: 작업 메모리 — 최근 대화 턴
    const recentTurns = this.conversationBuffer.slice(-6);

    // 2계층: 단기 메모리 — 세션 수준 요약
    const sessionContext = await this.sessionStore.get(userId);

    // 3계층: 장기 메모리 — 시맨틱으로 검색된 과거 지식
    const longTermMemories = await this.vectorStore.search(currentQuery, {
      filter: { userId },
      topK: 5,
    });

    return this.assembleMemory(recentTurns, sessionContext, longTermMemories);
  }
}

요약은 필수예요. 모든 대화 턴을 영원히 보관할 수는 없어요. 표준 접근법은 롤링 요약이에요:

async function compressConversation(messages: Message[]): Promise<string> {
  if (messages.length <= 6) return ''; // 압축 불필요

  // 마지막 6개 메시지는 원본 유지, 나머지는 요약
  const toSummarize = messages.slice(0, -6);

  const summary = await llm.generate({
    messages: [
      {
        role: 'system',
        content: `이 대화를 2-3문장으로 요약하세요.
                  집중: 내린 결정, 확인된 사실, 사용자가 표현한 선호.
                  생략: 인사, 잡담, 반복 정보.`
      },
      {
        role: 'user',
        content: toSummarize.map(m => `${m.role}: ${m.content}`).join('\n')
      },
    ],
    model: 'gpt-4o-mini', // 요약은 저렴하고 빠른 모델로
    maxTokens: 200,
  });

  return summary;
}

4. 컨텍스트 압축: 더 적은 공간에 더 많은 신호를

2백만 토큰 컨텍스트 윈도우가 있어도 압축은 중요해요. 컨텍스트가 크면 더 느리고, 더 비싸고, 역설적이게도 "중간에서 길을 잃는" 문제 때문에 결과가 더 나빠지기도 해요.

시맨틱 압축은 의미를 보존하면서 중복을 제거하는 거예요:

async function compressDocuments(docs: Document[]): Promise<string> {
  // 1단계: 겹치는 내용 제거
  const deduped = removeSimilarChunks(docs, similarityThreshold: 0.92);

  // 2단계: 관련 섹션만 추출
  const extracted = await Promise.all(
    deduped.map(doc => extractRelevantSections(doc, query))
  );

  // 3단계: LLM으로 압축
  const compressed = await llm.generate({
    messages: [{
      role: 'system',
      content: `다음 문서를 밀도 높은 참조 자료로 압축하세요.
                보존: 구체적 수치, 날짜, 이름, 코드 스니펫, 결정 사항.
                제거: 서론, 전환구, 채움말, 반복 설명.
                목표: 원본 길이의 30%.`
    }, {
      role: 'user',
      content: extracted.join('\n---\n')
    }],
    model: 'claude-3-5-haiku',
  });

  return compressed;
}

적응형 압축은 가용 예산에 따라 조절해요:

function allocateContextBudget(totalTokens: number) {
  const budget = {
    systemPrompt: Math.min(2000, totalTokens * 0.1),
    tools: Math.min(3000, totalTokens * 0.15),
    currentQuery: 500,
    get remaining() {
      return totalTokens - this.systemPrompt - this.tools - this.currentQuery;
    },
  };

  const conversationBudget = Math.floor(budget.remaining * 0.4);
  const knowledgeBudget = Math.floor(budget.remaining * 0.6);

  return { ...budget, conversationBudget, knowledgeBudget };
}

5. 컨텍스트 평가: 잘 되고 있는지 측정하기

측정 못 하면 개선도 못 해요. 컨텍스트 엔지니어링에는 전용 메트릭이 필요해요.

관련성 정밀도: 검색된 컨텍스트 중 실제로 응답에 도움이 된 비율은?

async function measureContextRelevance(
  query: string,
  contextChunks: string[],
  expectedAnswer: string
): Promise<number> {
  const evaluations = await Promise.all(
    contextChunks.map(chunk =>
      llm.generate({
        messages: [{
          role: 'system',
          content: `컨텍스트 청크가 쿼리 응답에 관련 있는지 평가하세요.
                    0 (무관) 또는 1 (관련 있음)으로 답하세요.
                    쿼리: "${query}"
                    0 또는 1만 응답.`
        }, { role: 'user', content: chunk }],
        model: 'gpt-4o-mini',
      })
    )
  );

  const relevant = evaluations.filter(e => e.trim() === '1').length;
  return relevant / contextChunks.length;
}

자주 보이는 안티패턴 (그리고 해결법)

안티패턴 1: 부엌 싱크대 (Kitchen Sink)

문제: "정보가 많으면 많을수록 좋지"라는 생각으로 모든 걸 컨텍스트에 쑤셔넣기.

왜 실패하냐면: 모델이 명시된 컨텍스트 용량의 약 60-70%를 넘기면 성능이 측정 가능하게 떨어져요. "컨텍스트 열화"라고 하는데, 모델이 제공된 정보를 무시하거나, 섞거나, 심지어 할루시네이션을 만들기 시작해요.

해결: 관련성에 대해 냉정해져야 해요. 현재 쿼리에 직접 도움이 안 되는 문서는 넣지 마세요.

안티패턴 2: 고정 컨텍스트 템플릿

문제: 쿼리 타입이나 복잡도에 관계없이 매번 같은 컨텍스트 구조를 쓰기.

해결: 쿼리 분류 기반의 동적 컨텍스트 조립:

async function buildDynamicContext(query: string) {
  const queryType = await classifyQuery(query);

  switch (queryType) {
    case 'factual':
      // 검색 지식 무겁게, 히스토리 가볍게
      return buildFactualContext(query);
    case 'conversational':
      // 히스토리 무겁게, 검색 지식 가볍게
      return buildConversationalContext(query);
    case 'action':
      // 도구와 상태 무겁게, 나머지 가볍게
      return buildActionContext(query);
  }
}

안티패턴 3: 시간 가중치 무시

문제: 대화 기록을 발생 시점에 상관없이 모두 동일하게 취급하기.

해결: 시간 가중치를 적용하세요. 최근 컨텍스트에 더 많은 공간을 주고, 오래된 건 압축하는 방식이에요:

function buildTemporalContext(history: Message[]): Message[] {
  const result: Message[] = [];

  // 최근 4개 턴: 원본 유지 (가장 관련성 높음)
  result.push(...history.slice(-4));

  // 5-12번째 턴: 중요한 메시지만
  const middleHistory = history.slice(-12, -4);
  const important = middleHistory.filter(
    m => m.role === 'user' || containsDecision(m) || containsCodeChange(m)
  );
  result.unshift(...important);

  // 13번째 이후: 압축 요약
  if (history.length > 12) {
    const oldHistory = history.slice(0, -12);
    const summary = await compressConversation(oldHistory);
    result.unshift({ role: 'system', content: `이전 맥락: ${summary}` });
  }

  return result;
}

안티패턴 4: 토큰 예산 없음

문제: 각 구성요소가 얼마나 소비할지 제한하지 않아서, 하나(보통 대화 기록)가 다른 걸 밀어내기.

해결: 명시적 예산 배분:

class ContextBudget {
  private allocations: Map<string, number>;

  constructor(totalLimit: number) {
    this.allocations = new Map([
      ['system', Math.floor(totalLimit * 0.10)],      // 10%
      ['knowledge', Math.floor(totalLimit * 0.35)],    // 35%
      ['tools', Math.floor(totalLimit * 0.10)],        // 10%
      ['history', Math.floor(totalLimit * 0.30)],      // 30%
      ['query', Math.floor(totalLimit * 0.05)],        // 5%
      ['buffer', Math.floor(totalLimit * 0.10)],       // 10% 안전 마진
    ]);
  }

  fit(component: string, content: string): string {
    const limit = this.allocations.get(component) ?? 0;
    const tokens = countTokens(content);
    if (tokens <= limit) return content;
    return truncateToTokens(content, limit);
  }
}

AI 에이전트를 위한 컨텍스트 엔지니어링

에이전트 시스템은 복잡도가 한 단계 올라가요. 여러 단계에 걸쳐 실행되는 에이전트는 실행 생애주기 전체에서 컨텍스트를 관리해야 해요.

스크래치패드 패턴

에이전트에게 중간 추론용 전용 공간을 주세요. 메인 컨텍스트를 오염시키지 않게요:

class AgentScratchpad {
  private thoughts: string[] = [];
  private maxThoughts = 10;

  addThought(thought: string) {
    this.thoughts.push(thought);
    if (this.thoughts.length > this.maxThoughts) {
      const toSummarize = this.thoughts.splice(0, 5);
      const summary = `[이전 추론 요약: ${toSummarize.join('; ')}]`;
      this.thoughts.unshift(summary);
    }
  }

  getContext(): string {
    return `## 에이전트 추론\n${this.thoughts.join('\n')}`;
  }
}

도구 결과 압축

에이전트 도구는 거대한 페이로드를 반환할 수 있어요. DB 쿼리가 500행을 돌려주거나, API 응답이 50KB JSON일 수 있죠. 그 원시 데이터를 전부 컨텍스트에 넣는 건 낭비이자 역효과예요.

async function compressToolResult(
  toolName: string,
  result: unknown,
  query: string
): Promise<string> {
  const rawString = JSON.stringify(result);
  const tokenCount = countTokens(rawString);

  if (tokenCount < 500) return rawString; // 작은 결과: 그대로

  // 큰 결과: 요약
  const summary = await llm.generate({
    messages: [{
      role: 'system',
      content: `"${toolName}" 도구가 다음 데이터를 반환했습니다.
                "${query}" 맥락에서 요약하세요.
                구체적 숫자, ID, 핵심 사실은 보존하세요.`
    }, {
      role: 'user',
      content: rawString.slice(0, 10000),
    }],
    model: 'gpt-4o-mini',
    maxTokens: 500,
  });

  return `[${toolName} 결과 — ${tokenCount} 토큰에서 요약]\n${summary}`;
}

멀티 에이전트 컨텍스트 격리

여러 에이전트가 협업할 때, 각 에이전트는 자기만의 집중된 컨텍스트가 필요해요. 모든 걸 에이전트 간에 공유하면 컨텍스트가 오염돼요:

class MultiAgentContextManager {
  async buildAgentContext(
    agent: Agent,
    task: Task,
    sharedState: SharedState
  ): Promise<Message[]> {
    return [
      { role: 'system', content: agent.systemPrompt },
      {
        role: 'system',
        content: this.filterSharedState(sharedState, agent.role)
      },
      { role: 'system', content: this.formatTask(task) },
      ...this.compressUpstreamResults(task.previousResults, agent.role),
    ];
  }

  private filterSharedState(state: SharedState, role: string): string {
    // 각 에이전트는 자기 역할에 관련된 상태만 봄
    const relevantKeys = STATE_ROLE_MAP[role] ?? [];
    const filtered = Object.fromEntries(
      Object.entries(state).filter(([key]) => relevantKeys.includes(key))
    );
    return JSON.stringify(filtered, null, 2);
  }
}

"실효 컨텍스트 윈도우" 문제

대부분의 개발자가 모르는 사실이 있어요. 모델의 공칭 컨텍스트 윈도우와 실효 컨텍스트 윈도우는 많이 달라요.

Gemini 2.5 Pro는 100만 토큰을 광고해요. Claude 3.5는 20만 토큰. GPT-4.1은 100만 토큰. 근데 연구 결과, 이 한도에 훨씬 못 미치는 수준에서부터 모델 성능이 떨어져요. 대부분의 모델이 명시된 용량의 60-70%를 넘기면 신뢰할 수 없게 돼요.

실무적으로 이런 뜻이에요:

20만 토큰 모델 → 실효 ~13만 토큰
100만 토큰 모델 → 실효 ~65만 토큰

const EFFECTIVE_CONTEXT_RATIO = 0.65; // 명시 한도의 65%만 사용

function getEffectiveLimit(model: string): number {
  const statedLimits: Record<string, number> = {
    'gpt-4.1': 1_000_000,
    'claude-3.5-sonnet': 200_000,
    'gemini-2.5-pro': 1_000_000,
    'gpt-4o': 128_000,
  };

  const stated = statedLimits[model] ?? 128_000;
  return Math.floor(stated * EFFECTIVE_CONTEXT_RATIO);
}

컨텍스트 엔지니어링 성과 측정 메트릭

이 지표들을 추적해야 실제로 효과가 있는지 알 수 있어요:

메트릭	측정 대상	목표
컨텍스트 관련성	응답에 사용된 컨텍스트 청크 비율	> 70%
토큰 효율	유용한 출력 토큰 / 입력 토큰	> 0.15
검색 정밀도	검색된 문서 중 관련 있었던 비율	> 80%
예산 준수율	토큰 예산 내에 맞은 요청 비율	> 95%
응답 근거	제공된 컨텍스트를 추적 가능한 주장 비율	> 90%
지연 시간 영향	컨텍스트 조립으로 추가된 latency	< 500ms

마인드셋을 바꿔야 해요

이 글에서 하나만 기억한다면 이거예요:

프롬프트를 생각하지 말고, 컨텍스트를 생각하세요.

프롬프트(시스템 지시, 퓨샷 예시, 포맷 가이드라인)가 출력 품질에 미치는 영향은 5-10% 정도예요. 나머지 90%는 모델이 적절한 타이밍에, 적절한 구조로, 적절한 정보에 접근할 수 있었느냐예요.

2026년 최고의 AI 엔지니어들은 가장 영리한 프롬프트를 쓰는 사람이 아니에요. 가장 정교한 컨텍스트 파이프라인을 구축하는 사람들이에요. 매 쿼리마다 정확히 맞는 정보를 동적으로 조립하고, 예산에 맞게 압축하고, 컨텍스트가 실제로 도움이 됐는지 측정하는 시스템을 만드는 사람들이요.

프롬프트 엔지니어링은 에피타이저였어요. 컨텍스트 엔지니어링이 메인 디시예요. 이걸 먼저 파악한 팀이 프로덕션에서 진짜 동작하는 AI 기능을 출시하게 돼요.

결론

컨텍스트 엔지니어링은 겉보기에 단순한 질문에 답해요: "이 응답을 생성할 때 모델이 뭘 알아야 하나?"

근데 이 질문에 잘 답하려면 완전한 엔지니어링 분야가 필요해요:

각 쿼리에 맞는 정보를 선별하고
위치 인식으로 정보를 구조화하고
계층적 메모리 시스템으로 대화 간 기억을 유지하고
예산 안에서 신호를 잃지 않고 압축하고
컨텍스트가 실제로 결과를 개선했는지 측정하기

도구는 다 있어요. 검색용 벡터 DB, 요약·압축용 LLM, 예산 관리용 토큰 카운터, 측정용 평가 프레임워크.

부족했던 건 프레임워크, 그러니까 이 모든 조각을 하나의 일관된 분야로 바라보는 사고방식이었어요. 그게 컨텍스트 엔지니어링이에요. AI 데모와 AI 프로덕트를 가르는 핵심 스킬이죠.

컨텍스트 파이프라인을 구축하세요. 모든 걸 측정하세요. 가차 없이 반복하세요. 그래야 진짜 동작하는 AI를 출시할 수 있어요.