기본 콘텐츠로 건너뛰기

백만하나넷

구글 블로그스팟 오픈AI GPT봇 수집 차단하기

블로그를 하다 보면 이따금씩 방문자가 급격하게 늘어나는 경우가 있다.
이렇게 말이다.
사람이 직접 방문한 것이면 좋겠지만, 유입 경로의 국적을 확인해 보면 대부분 외국이다.
뭐 외국에서 내 블로그에 들어온 것이면 좋겠지만, 아쉽게도 십중팔구 GPT봇일 가능성이 높다.

내가 공들여서 직접 작성한 블로그 게시물을 AI가 학습하는 것이 달갑지 않을 것이다.
요즘 검색엔진에 표시되는 검색결과를 보면 챗GPT로 게시물을 작성하는 양심없는 블로거들을 볼 수 있는데, 이걸 제한적으로 막는 방법이 있다.

챗GPT를 출시한 오픈AI는 GPT봇의 수집을 막는 방법을 공개했다.
방법은 아래와 같다.



구글 블로그스팟에서 챗GPT GPT봇 수집 차단하는 방법

방법은 간단하다.
검색엔진 노출 설정할 때 수정하는 robots.txt 파일에 차단 명령어를 추가하면 된다.
(워드프레스, 네이버 블로그, 티스토리 등 타 블로그 서비스에도 유사하게 적용할 수 있을 듯하다)

블로거 "설정" 메뉴를 클릭하고 "크롤러 및 색인 생성" 항목에서,
"맞춤 robots.txt 사용 설정" 스위치를 켜고, "맞춤 robots.txt" 부분에 몇 줄 추가하면 된다.

User-agent: GPTBot
Disallow: /

위와 같은 문구를 추가하면 모든 게시물에 대한 GPT봇 크롤링을 막을 수 있다고 한다.

특정 경로의 게시물만 크롤링을 막으려면 이렇게 하면 된다.

User-agent: GPTBot
Allow: /GPT좋아/
Disallow: /GPT싫어/

이렇게 설정하면 "GPT좋아" 경로의 게시물은 크롤러가 수집을 할 수 있지만, "GPT싫어" 경로의 게시물은 수집할 수 없다.
그런데 아마도 대부분의 블로거들은 모든 게시물에 대한 수집을 막고 싶을 것이다.


한계

위와 같이 설정해도 물론 GPT봇의 수집을 완전히 막을 수는 없다.
오픈AI는 그렇다 쳐도 다른 업체의 AI 로봇을 막을 수는 없다.
그리고 오픈AI의 GPT봇이 이미 수집해 버린 데이터를 지우는 것도 불가능하다.

위와 같이 적용하고 이틀 정도 지났는데, 불분명한 해외 유입은 여전히 발생하고 있다.

  • 블로그 작성자: 풀먹는표범
  • 제목: 구글 블로그스팟 오픈AI GPT봇 수집 차단하기
  • Last updated: 

댓글