LLM RAG (LangChain) + LLM orchestration (LangGraph) + WebDriver Control

분석 대상: MaxAI, Merlin, Genspark AI

공통적 기술 설계 구조 ( 추정)

  • LangChain 기반으로 LLM 체인 구성 + RAG (Retrieval-Augmented Generation) 구성: 사용자의 요청에 맞춰 외부 문서를 검색하고, 문맥 보강 후 LLM 출력 생성
  • LangGraph 또는 자체 agent orchestration layer로 멀티-LLM 호출 및 최적화: 다양한 LLM을 역할별로 연결해 복합적 질의 처리 (e.g., Claude는 분석, GPT는 요약)
  • WebDriver 기반 브라우저 제어 (Playwright / Puppeteer 등) : DOM 탐색, 버튼 클릭, 텍스트 입력 등 인간의 웹 상 행동 자동화
  • 브라우저 확장 UI (sidebar, context menu) 형식 배포: 드래그한 문장에 메뉴 추가, 우클릭 기능 등으로 접근성 강화
  • 수익 구조: LLM API를 도매 단가(bulk discount)로 공급받고, 기능 포장(AI wrapper)으로 마진 확보

차별화 포인트 비교

  • MaxAI는 다양한 LLM을 선택적으로 호출하고, Playwright 기반 자동화로 ‘브라우저 내 AI 비서’ 역할을 수행하며, 실제 웹 페이지를 조작할 수 있는 점에서 가장 진보된 형태이다.
  • Merlin은 속도와 편의성에 집중한 일상용 AI 도구로, ChatGPT의 확장적 대안이며 엔지니어링 부담 없이 누구나 활용 가능하다.
  • Genspark는 AI agent 실험을 위한 플랫폼으로, LangGraph에 가까운 구조를 실현하며, 복수 LLM의 결과를 평가·선택·결합하는 메타-LLM 구조에 강점을 가진다.

앱 분석 - Nanobrowser Chrome Browser Extension

  • 핵심 기능: Human Proxy on Browser with Multi-agent LLMs
  • 대체재: Proxy-lite app by Convergence.ai
  • UX 관점: 초보용. 작업이 매우 느리고, LLM agent가 틀리면 계속 수정지시를 내려야함에 주의
  • Multi-agent System: Specialized AI agents collaborate to accomplish complex web workflows with chat interface. 예를 들어,
  • News Search예시: "Go to TechCrunch and extract top 10 headlines from the last 24 hours"
  • Shopping Search 예시: "Find a portable Bluetooth speaker on Amazon with a water-resistant design, under $50. It should have a minimum battery life of 10 hours"