Skip to content

Latest commit

 

History

History
37 lines (24 loc) · 1.73 KB

crawling.md

File metadata and controls

37 lines (24 loc) · 1.73 KB

Web Crawling


Web scraping is a computer software technique of extracting information from websites


  크롤링(crawling) 혹은 스크레핑(scraping)은 컴퓨터 소프트웨어 기술로 다른 프로그램으로부터 들어오는 인간이 읽을 수 있는 출력으로부터 데이터를 추출하는 기법으로, 흔히 말하는 웹 크롤링은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 기법이다. (정식명칭은 Web Scraping이라고 한다.)

  이러한 동작을 하는 프로그램이 바로 웹 크롤러다. 웹 크롤러는 한 페이지만 방문하는 것이 아니라 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행하는데, 이처럼 링크를 따라 웹을 돌아다니는 모습이 거미와 비슷하다고 하여 스파이더라고 부르기도 한다. 네이버, 구글 등도 이런 봇(BOT)을 이용해 운영된다.

  웹은 기본적으로 HTML 형식으로 되어 있다. 때문에 규칙이 있고, 이런 규칙을 분석하여 원하는 데이터를 추출해내는 것이 웹 크롤링 작업의 기본 원리라고 생각하면 된다.


관련 소프트웨어

  • 파이썬
  • 자바
    • jsoup
    • httrack
    • wget-curl


참고자료