MCP 마켓은 있는데 에이전트 마켓은 왜 없을까? - 에이전트 슈퍼마켓 구상기

발표기록
AINative
에이전트
마켓플레이스
음성AI
AI 에이전트 마켓플레이스 구상부터 QA 데이터셋 자동 생성, 음성 임베딩 기반 화자 인식 실험까지. 업무 단위 AI의 가능성을 살펴봅니다.
Author

AI Native Builders

Published

March 31, 2026

MCP(Model Context Protocol) 도구를 모아둔 마켓은 이미 등장했다. 필요한 도구를 검색하고 연결하는 일도 점점 쉬워지고 있다. 그런데 특정 업무를 처음부터 끝까지 수행하는 완성형 AI 에이전트를 사고파는 시장은 아직 뚜렷하게 자리 잡지 못했다. 이 글은 그 간극에서 출발한 두 가지 실험, 즉 QA 데이터셋 생성 자동화와 음성 임베딩 기반 화자 인식 아이디어를 함께 정리한다.

도구 마켓 다음은 에이전트 마켓일까

지금의 MCP 마켓은 개별 도구를 유통하는 구조에 가깝다. 검색, 번역, 데이터 조회, 파일 처리처럼 기능 단위의 도구는 쉽게 붙일 수 있지만, 특정 목표를 위해 여러 단계를 스스로 수행하는 에이전트는 여전히 표준화가 어렵다.

그 이유도 분명하다. 에이전트는 실행 환경에 따라 결과가 달라질 수 있고, 품질 평가 기준을 만들기도 쉽지 않다. 같은 설명으로 설치했더라도 실제 업무에서는 프롬프트, 권한, 연결된 도구, 데이터 상태에 따라 성능 편차가 크게 난다. 결국 에이전트를 유통하려면 기능보다 신뢰를 먼저 거래할 수 있어야 한다.

그럼에도 불구하고 “에이전트 슈퍼마켓”이라는 발상은 충분히 흥미롭다. 사용자는 도구가 아니라 업무 단위로 AI를 고르고 싶어 하기 때문이다. 문서에서 QA 세트를 만들고, 회의 녹음에서 화자를 구분하고, 보고서를 요약하는 식의 결과 중심 수요는 이미 존재한다. 시장이 늦게 열릴 수는 있어도 방향 자체는 분명하다.

QA 데이터셋 생성 에이전트를 만들어보면 보이는 것

이 문제의식은 실제 자동화 실험으로 이어졌다. 목표는 LLM 성능 평가에 필요한 QA 데이터셋을 문서에서 자동 생성하는 파이프라인을 만드는 것이었다.

구성은 비교적 명확하다.

  1. 문서를 적절한 크기로 나누는 청킹(chunking)
  2. few-shot prompting으로 질문 생성
  3. 생성된 질문에 대한 답변 생성
  4. 자동 검증 단계로 품질 확인

겉으로 보면 잘 설계된 플로우에 가깝다. 여기서 자연스럽게 생기는 질문이 있다. 이런 구조를 어디까지 에이전트라고 부를 수 있을까?

실무에서는 이 경계가 생각보다 모호하다. 정해진 순서대로 처리하면 플로우 같고, 중간 판단과 재시도가 들어가면 에이전트처럼 보인다. 하지만 이름보다 중요한 것은 결과다. 실제 문서에서 평가 가능한 QA 데이터셋을 안정적으로 뽑아내는 파이프라인을 설계했다면, 그것만으로도 충분히 의미 있는 자동화다.

텍스트 RAG를 음성으로 확장하면

두 번째 실험은 음성 임베딩 기반 화자 인식이다. 출발점은 단순하다. 모임이나 회의에서 누가 참석했고 누가 말했는지 자동으로 확인할 수 없을까 하는 문제의식이다.

RAG(Retrieval-Augmented Generation)는 보통 텍스트 문서를 검색하고 활용하는 방식으로 이해된다. 하지만 음성도 임베딩을 통해 벡터로 표현할 수 있다면 접근이 달라진다. 말의 의미가 아니라 목소리의 특성을 벡터화해 비교하면, 녹음 파일 안에서 화자를 식별하는 구조를 만들 수 있다.

파이프라인은 다음과 같다.

  1. 참석자의 음성 샘플을 벡터 DB에 등록한다.
  2. 회의 녹음 파일에서 VAD(Voice Activity Detection)로 유효 구간을 추출한다.
  3. 구간별 음성을 분리한다.
  4. 각 구간의 음성 임베딩을 등록된 벡터와 비교해 화자를 식별한다.

이 실험에서 중요한 포인트는 임베딩 대상이 발화 내용이 아니라 음성 자체의 특징이라는 점이다. 음색, 발화 패턴, 리듬 같은 특성이 벡터에 반영된다. 한국어 환경에서 공개 모델의 한계가 뚜렷했던 시기에는 직접 음성 임베딩 모델을 학습해 구분 성능을 끌어올리는 시도도 이뤄졌다.

현재는 GPU 연동 등 일부 구현 과제가 남아 있어도, 구조적 아이디어는 충분히 선명하다. 텍스트에서 검증된 검색-비교 패턴이 음성에서도 그대로 확장될 수 있다는 점이 핵심이다.

적용 가능성은 생각보다 넓다

이 구조는 단순한 출석 확인을 넘어 여러 도메인으로 확장될 수 있다. 차량 환경에서는 운전자 음성을 기반으로 개인화 설정이나 보안 인증에 활용할 수 있고, 회의 기록 자동화나 고객 응대 분석처럼 화자 구분이 중요한 업무에도 적용 가능하다.

흥미로운 지점은 기술 그 자체보다 전이 가능성이다. 텍스트 RAG에서 익숙했던 검색과 매칭의 사고방식을 음성 도메인으로 옮겼을 때, 완전히 새로운 문제 정의가 가능해진다. 좋은 아이디어는 새로운 기술에서만 나오지 않는다. 기존 패턴을 다른 데이터 형식에 옮겨보는 과정에서도 충분히 나온다.

정리하며

이 글에서 남는 질문은 하나다. 왜 도구 마켓은 빠르게 성장했는데 에이전트 마켓은 아직 본격적으로 열리지 않았을까? 답은 아마도 신뢰, 평가, 재현성에 있다. 동시에 그 질문 자체가 다음 시장의 방향을 가리키고 있기도 하다.

QA 데이터셋 자동 생성 실험은 업무 단위 자동화가 어디까지 가능한지를 보여준다. 음성 임베딩 화자 인식 실험은 텍스트 중심 AI 활용 패턴을 다른 도메인으로 확장하는 사고법을 보여준다. 결국 중요한 것은 거창한 기술 용어가 아니라, 반복되는 문제를 구조화하고 이미 검증된 패턴을 다른 영역에 옮겨보는 시도다.