본문 바로가기
용어서랍

'크롤링(crawling), 크롤러(crawler)' 뜻

by 당당하루 2023. 4. 11.

크롤링

 

크롤링(crawling)은 '기다'는 뜻의 'crawl'에서 파생한 말로, 크롤러(crawler)란 '기어가는 사람' 크롤링(crawling)은 '기어가는 것'으로 1차 해석할 수 있다. 하지만 오늘날 크롤링이라 하면 IT용어로서 인터넷상에서 웹 페이지를 방문하여 산발적으로 흩어져 있는 정보를 자동으로 수집하고 분류하고 저장하는 기술을 말한다.

 

반응형

크롤러

 

크롤링하는 소프트웨어를 크롤러(crawler)라고 부른다.

 

크롤러를 좀 더 구체적으로 살펴보면, 크롤러는 주어진 인터넷 주소(URL)에 접근하여 관련된 URL을 찾아내고, 찾아진 URL들 속에서 또 다른 하이퍼링크(hyperlink)를 찾아 분류하고 저장하는 작업을 반복함으로써 여러 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할을 한다.

 

로봇, 크롤러들이 웹을 떠다니는 일러스트
크롤링, 크롤러

 

크롤러는 사용자가 웹페이지의 각 링크를 일일이 따라가 정보를 얻는 작업을 대신하여 자동적으로 웹서버를 순회하며 웹페이지의 내용을 분석하고, 그 안에 포함되어 있는 URL들을 추출한 후 그 URL들로 하나씩 이동하면서 텍스트, 수치, 이미지, 멀티미디어 정보 등 수많은 정보를 수집하게 된다.

 

크롤러는 웹크롤러, 스파이더(spider), 로봇, 웹수집기, 로봇에이전트 등 다양한 이름으로 불리는데, 종류로는 앤츠(ants), 보츠(bots), 웜즈(worms), 웹스파이더(web spider), 웹로봇(web robot), 웹스쿠터(web scooter) 등이 있다.

 

크롤러, 인덱서, 인터페이스 & 쿼리를 통한 정보제공

 

인터넷에서의 정보검색시스템은 정보수집, 정보가공, 정보제공의 세 가지 기능으로 구성된다.

정보수집은 크롤러가, 정보가공은 인덱서(indexer, 문서색인기)가 그리고 정보제공은 사용자 인터페이스가 맡게 된다.

 

다시 말하면 구글, 네이버, 다음, 야후 등 인터넷 포털사이트에서 정보검색 서비스를 제공하기 위하여 운영하는 검색엔진은 수많은 웹페이지에서 다양한 정보를 수집해 오는 크롤러(crawler)라는 프로그램과 크롤러가 수집한 정보를 검색하기 쉬운 형태로 가공하여 색인을 만들어 서버에 보존하는 인덱서, 사용자가 특정 검색어를 입력하면 쿼리(query; 데이터를 조회하기 위한 명령)를 통해 인덱서 서버 안에 축적되어 있는 정보를 꺼내어 검색결과를 제공하는 시스템으로 구성되어 있다.

 

 

크롤링과 스크래핑

 

크롤링과 유사한 개념으로 스크래핑(scraping, 혹은 데이터 스크래핑. data scraping)이 있다.

이는 소프트웨어를 통해 대상 웹사이트에서 데이터 자체를 추출하여(긁어와) 특정 형태로 저장하는 것을 말한다. 빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 이를 스크래핑을 통해 수집, 저장해 분석에 사용한다.

 

 

생활 속 크롤링 예

 

크롤링은 구글, 네이버, 다음 등 검색 엔진 뿐만 아니라, 인터넷 쇼핑몰에서 최저가를 비교해 주는 것 등 데이터를 활용하는 거의 모든 분야에 활용되고 있다.

 

 

크롤링을 통해 모인 정보들은 새로운 가치를 창출하는 데 활용될 수 있기 때문에 크롤링의 중요성이 점차 커지고 있다. 이에 운영자는 크롤링을 통한 무단 복제를 막기 위해 로봇 배제 표준을 적용하는 등 노력을 기울인다. 웹 페이지에 로봇 배제 표준(robots exclusion standard)을 사용하여 접근 제한에 대한 설명을 robots.txt에 기술하거나 또는 'noindex' 메타 태그(meta tag)를 사용하여 크롤러로 인한 검색 색인을 차단하는 것이다.

 

 

▣ 함께 보면 좋은 글

 

유능한 당신의 멀티태스킹, 치매 부르는 복병 될 수도

컴퓨터 화면을 여러 개 띄워놓고 동시에 여러 일을 능수능란하게 처리하는 사람, 그는 지금 멀티태스킹을 수행 중입니다. 그는 유능해 보인다, 그러나 이 멀티태스킹 작업이 치매를 부르고 뇌를

haroohana.tistory.com

 

‘부드러운 권유, 넛지(nudge)’ 뜻과 유래, 넛지 효과, 넛지 마케팅, 다크 넛지까지

산다는 건 어쩌면 매 순간 선택의 연속인지도 모르겠습니다. 그런데 우리는 종종 선택을 어려워합니다. 결정장애니 선택장애니 하는 말도 있고, 음식 메뉴 중에 '아무거나'는 없다는 오래된 농

haroohana.tistory.com

 

베이비부머, 베이비붐 세대의 뜻과 특징

'전후 폭발적으로 늘어난 출산율로 인해 인구수가 크게 증가한 세대' 베이비부머, 베이비붐 세대의 뜻을 대부분 알고 있으리라 보지만, 정확한 의미를 제대로 알고자 정리해 봅니다. 같은 '베이

haroohana.tistory.com

 

'너드' '너드미' '너드남' '너드녀' 뜻

너드, 너드미, 너드남, 너드녀의 뜻 아시나요? 모두 영어 단어 'nerd'에서 파생된 단어들인데, 뒤에 '~미' '~남' '~녀'가 붙어, 새로운 용어를 만들어내고 있습니다. ▣ 목차 1. '너드(Nerd)' 뜻 2. 유사

haroohana.tistory.com

 

챗봇? 챗GPT?

요즘 인공지능(AI) 챗봇, 챗GPT에 대한 뉴스가 뜨겁다. 2022년 12월 1일 오픈AI에서 챗GPT를 내놓은 후 일주일 만에 사용자가 100만 명을 넘어 화제를 모으더니 불과 두 달 만에 월간 이용자수가 1억 명

haroohana.tistory.com

 

챗GPT (ChatGPT, 챗지피티)?

ChatGPT(챗지피티) ? 챗GPT는 오픈에이아이(Open AI)가 공개한 인공지능 챗봇으로 Generative Pretrained Transformer GPT)와 Chat의 합성어다. GPT-3.5를 기반으로 했으며 기본적인 챗봇단계에서 나아가 대화의 문

haroohana.tistory.com

댓글