크롤링
크롤링(crawling)은 '기다'는 뜻의 'crawl'에서 파생한 말로, 크롤러(crawler)란 '기어가는 사람' 크롤링(crawling)은 '기어가는 것'으로 1차 해석할 수 있다. 하지만 오늘날 크롤링이라 하면 IT용어로서 인터넷상에서 웹 페이지를 방문하여 산발적으로 흩어져 있는 정보를 자동으로 수집하고 분류하고 저장하는 기술을 말한다.
크롤러
크롤링하는 소프트웨어를 크롤러(crawler)라고 부른다.
크롤러를 좀 더 구체적으로 살펴보면, 크롤러는 주어진 인터넷 주소(URL)에 접근하여 관련된 URL을 찾아내고, 찾아진 URL들 속에서 또 다른 하이퍼링크(hyperlink)를 찾아 분류하고 저장하는 작업을 반복함으로써 여러 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할을 한다.
크롤러는 사용자가 웹페이지의 각 링크를 일일이 따라가 정보를 얻는 작업을 대신하여 자동적으로 웹서버를 순회하며 웹페이지의 내용을 분석하고, 그 안에 포함되어 있는 URL들을 추출한 후 그 URL들로 하나씩 이동하면서 텍스트, 수치, 이미지, 멀티미디어 정보 등 수많은 정보를 수집하게 된다.
크롤러는 웹크롤러, 스파이더(spider), 로봇, 웹수집기, 로봇에이전트 등 다양한 이름으로 불리는데, 종류로는 앤츠(ants), 보츠(bots), 웜즈(worms), 웹스파이더(web spider), 웹로봇(web robot), 웹스쿠터(web scooter) 등이 있다.
크롤러, 인덱서, 인터페이스 & 쿼리를 통한 정보제공
인터넷에서의 정보검색시스템은 정보수집, 정보가공, 정보제공의 세 가지 기능으로 구성된다.
정보수집은 크롤러가, 정보가공은 인덱서(indexer, 문서색인기)가 그리고 정보제공은 사용자 인터페이스가 맡게 된다.
다시 말하면 구글, 네이버, 다음, 야후 등 인터넷 포털사이트에서 정보검색 서비스를 제공하기 위하여 운영하는 검색엔진은 수많은 웹페이지에서 다양한 정보를 수집해 오는 크롤러(crawler)라는 프로그램과 크롤러가 수집한 정보를 검색하기 쉬운 형태로 가공하여 색인을 만들어 서버에 보존하는 인덱서, 사용자가 특정 검색어를 입력하면 쿼리(query; 데이터를 조회하기 위한 명령)를 통해 인덱서 서버 안에 축적되어 있는 정보를 꺼내어 검색결과를 제공하는 시스템으로 구성되어 있다.
크롤링과 스크래핑
크롤링과 유사한 개념으로 스크래핑(scraping, 혹은 데이터 스크래핑. data scraping)이 있다.
이는 소프트웨어를 통해 대상 웹사이트에서 데이터 자체를 추출하여(긁어와) 특정 형태로 저장하는 것을 말한다. 빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 이를 스크래핑을 통해 수집, 저장해 분석에 사용한다.
생활 속 크롤링 예
크롤링은 구글, 네이버, 다음 등 검색 엔진 뿐만 아니라, 인터넷 쇼핑몰에서 최저가를 비교해 주는 것 등 데이터를 활용하는 거의 모든 분야에 활용되고 있다.
크롤링을 통해 모인 정보들은 새로운 가치를 창출하는 데 활용될 수 있기 때문에 크롤링의 중요성이 점차 커지고 있다. 이에 운영자는 크롤링을 통한 무단 복제를 막기 위해 로봇 배제 표준을 적용하는 등 노력을 기울인다. 웹 페이지에 로봇 배제 표준(robots exclusion standard)을 사용하여 접근 제한에 대한 설명을 robots.txt에 기술하거나 또는 'noindex' 메타 태그(meta tag)를 사용하여 크롤러로 인한 검색 색인을 차단하는 것이다.
▣ 함께 보면 좋은 글
'용어서랍' 카테고리의 다른 글
케미포비아, 케모포비아 뜻 (0) | 2023.04.20 |
---|---|
'무신사' 무슨 뜻? (0) | 2023.04.11 |
체리슈머(Cherrysumer)? 체리슈머 뜻! (0) | 2023.04.11 |
'가스라이팅(Gaslighting)' 뜻, 자가진단, 예시, 대처방법 (0) | 2023.04.11 |
'욜로(YOLO)' 뜻 (0) | 2023.04.11 |
댓글