기존의 RPA(로봇 프로세스 자동화)와 무엇이 다른가요?

RPA는 정해진 규칙(Rule)에 따라 작동하므로 화면 구조가 조금만 바뀌어도 오류가 나지만, 제미나이의 컴퓨터 사용 기능은 시각적 인식과 추론을 통해 상황에 맞게 유연하게 대처한다는 점이 다릅니다.

내 컴퓨터의 모든 권한을 AI가 갖게 되는 건가요?

아니요. 일반적으로 AI 에이전트는 사용자가 허용한 환경(샌드박스나 특정 권한 범위) 내에서만 작동하며, 보안 설정을 통해 접근 가능한 폴더나 앱을 제한할 수 있습니다.

지금 바로 일반 사용자도 사용할 수 있나요?

이 기능은 현재 구글의 특정 API 환경이나 개발자 프리뷰 등을 통해 순차적으로 공개되고 있습니다. 일반 사용자용 인터페이스에 완전히 통합되기까지는 시간이 걸릴 수 있으므로 공식 발표를 확인하시기 바랍니다.

제미나이 3.5 플래시 '컴퓨터 사용(Computer Use)' 기능이란? 쉽게 정리

제미나이 3.5 플래시의 '컴퓨터 사용' 기능, 한마디로 무엇인가요?

결론부터 말씀드리면, AI가 사람처럼 컴퓨터 화면을 보고, 마우스 커서를 움직이며, 버튼을 클릭하고 텍스트를 입력하는 기능입니다. 기존의 AI가 채팅창 안에서 텍스트나 이미지를 주고받는 수준이었다면, 이제는 AI가 직접 운영체제(OS) 위에서 소프트웨어를 조작해 사용자가 요청한 복잡한 작업을 수행할 수 있게 된 것입니다.

예를 들어, "웹사이트에서 최신 뉴스 5개를 찾아 엑셀 파일에 정리하고, 이를 이메일로 보내줘"라고 명령하면, AI가 브라우저를 열고, 뉴스를 복사해 엑셀에 붙여넣고, 메일 앱을 실행해 전송하는 과정을 스스로 수행하는 방식입니다.

왜 이 기능이 혁신적인가요?

지금까지의 AI 자동화는 대부분 'API'라는 연결 통로가 필요했습니다. 특정 서비스(예: 구글 캘린더, 노션)가 AI와 연결될 수 있도록 미리 설계된 통로가 있어야만 데이터 주고받기가 가능했죠. 하지만 '컴퓨터 사용(Computer Use)' 기능은 API 없이도 사람이 사용하는 인터페이스(UI)를 그대로 이용합니다.

이것이 중요한 이유는 다음과 같습니다.

핵심 작동 포인트 4가지

제미나이 3.5 플래시의 컴퓨터 사용 기능은 다음과 같은 메커니즘으로 작동합니다.

1. 시각적 인식 (Visual Perception)

AI는 실시간으로 컴퓨터 화면의 스크린샷을 캡처하고 분석합니다. 어디에 버튼이 있는지, 입력창이 어디에 위치해 있는지, 현재 어떤 메뉴가 활성화되어 있는지를 픽셀 단위로 파악합니다.

2. 추론 및 계획 (Reasoning & Planning)

사용자의 요청을 분석해 단계별 계획을 세웁니다. "먼저 크롬 브라우저를 실행한다 $\rightarrow$ 검색창에 키워드를 입력한다 $\rightarrow$ 첫 번째 링크를 클릭한다"와 같은 논리적 순서를 결정합니다.

3. 액션 실행 (Action Execution)

결정된 계획에 따라 실제 마우스 좌표를 계산해 클릭, 드래그, 스크롤을 수행하고, 키보드로 텍스트를 타이핑합니다. 이는 단순한 매크로가 아니라 화면 상황에 따라 유연하게 반응하는 동작입니다.

4. 피드백 루프 (Feedback Loop)

동작을 수행한 후, 화면이 어떻게 변했는지 다시 확인합니다. 만약 예상치 못한 팝업창이 떴다면 이를 인식하고 닫기 버튼을 누르는 등 상황에 맞춰 계획을 수정하며 목표를 달성합니다.

실제 어떻게 활용할 수 있을까?

이 기능이 완전히 보급된다면 다음과 같은 반복 업무에서 해방될 수 있습니다.

데이터 수집 및 정리: 여러 웹사이트의 가격 정보를 수집해 비교 표를 만들고 보고서 파일로 저장하는 작업
복잡한 행정 처리: 정부 사이트나 사내 인트라넷에 접속해 서류를 신청하고 진행 상태를 확인하는 작업
소프트웨어 테스트: 개발자가 만든 프로그램의 특정 시나리오를 AI가 직접 조작하며 버그가 없는지 확인하는 테스트 자동화
단순 반복 입력: PDF 파일에 적힌 내용을 보고 사내 ERP 시스템에 일일이 입력하는 단순 전산 작업

💡 Tip

처음 도입 시에는 한 번에 너무 복잡한 명령을 내리기보다, **'브라우저 열기 $\rightarrow$ 검색하기'처럼 단계를 나누어 요청**하고 AI가 제대로 수행하는지 모니터링하며 범위를 넓혀가는 것이 효율적입니다.

반드시 주의해야 할 점

강력한 기능인 만큼 보안과 안전에 대한 우려가 큽니다. 사용 전 다음 사항을 반드시 고려해야 합니다.

⚠️ 주의

**보안 및 개인정보 유출 위험**: AI가 화면을 계속 캡처하여 분석하므로, 화면에 노출된 비밀번호, 개인정보, 기업 기밀 등이 모델 학습이나 로그에 남을 가능성이 있습니다. 민감한 정보가 떠 있는 화면에서는 사용을 제한해야 합니다.

🚨 꼭 확인

**예상치 못한 오작동**: AI가 버튼의 위치를 잘못 인식하거나, 엉뚱한 버튼(예: 삭제 버튼)을 클릭할 위험이 있습니다. 특히 **결제, 삭제, 전송과 같은 되돌리기 어려운 작업**을 수행할 때는 반드시 사람의 최종 승인 단계(Human-in-the-loop)를 거치도록 설정해야 합니다.

또한, 이 기능은 현재 실험적인 단계이거나 특정 환경에서만 제공될 수 있으므로, 실제 적용 전 공식 기술 문서와 권한 설정 가이드를 확인하는 것이 권장됩니다.

마무리하며

제미나이 3.5 플래시의 '컴퓨터 사용' 기능은 AI가 단순한 '상담원'에서 실제 업무를 수행하는 '대리인(Agent)'으로 진화했음을 보여줍니다. 이제 우리는 "어떻게 질문할까"를 넘어 "어떤 업무를 맡길까"를 고민해야 하는 시대에 접어들었습니다. 보안과 정확성이라는 숙제가 남아있지만, 이것이 해결된다면 우리의 업무 생산성은 비약적으로 상승할 것입니다.

제미나이 3.5 플래시 '컴퓨터 사용(Computer Use)' 기능이란? 쉽게 정리

제미나이 3.5 플래시의 '컴퓨터 사용' 기능, 한마디로 무엇인가요?

왜 이 기능이 혁신적인가요?

핵심 작동 포인트 4가지

1. 시각적 인식 (Visual Perception)

2. 추론 및 계획 (Reasoning & Planning)

3. 액션 실행 (Action Execution)

4. 피드백 루프 (Feedback Loop)

실제 어떻게 활용할 수 있을까?

반드시 주의해야 할 점

마무리하며

자주 묻는 질문

함께 보면 좋은 글

Google Play 영국 개발자 업데이트 정리: 비용은 낮추고 권한은 높이고

구글 월렛 TSA PreCheck 터치리스 ID 확대, 공항 보안 검색이 더 빨라진다

구글 크롬 모바일, Gemini AI로 자동 완성 기능 강화: 무엇이 달라지나?

올여름 구글 검색 트렌드 분석: AI와 앱 활용법 쉽게 정리