⁂ Java/: Crawling

    [JAVA] 웹 크롤링(Web Crawling) 2 : jsoup으로 크롤링하기

    1. jsoup 라이브러리로 크롤링하기 이제 자바로 만들어진 HTML parser*인 jsoup 라이브러리를 사용하여 크롤링을 해보자. jsoup 라이브러리는 DOM 구조를 추적하거나 CSS 선택자를 사용하여 데이터를 찾아 추출하는 기능이다. * parser : 인터프리터나 컴파일러의 구성 요소 가운데 하나로, 입력 토큰에 내재된 자료 구조를 빌드하고 문법을 검사하는 도구이다. 다운로드는 아래의 사이트에서 할 수 있다. https://jsoup.org/download Download and install jsoup Download and install jsoup jsoup is available as a downloadable .jar java library. The current release vers..

    [JAVA] 웹 크롤링(Web Crawling) 1 : 웹크롤링 이해하기

    1. 크롤링 크롤링(crawling)이란 인터넷에서 데이터를 검색해 필요한 정보를 스크랩(scrab)하는 것이다. 사용자가 필요한 키워드를 하나씩 검색해서 정보를 얻고 가공하여 저장하는 기술이다. 그리고 이런 크롤링을 해주는 프로그램을 크롤러라고 한다. 크롤링을 한다는 것은 무엇일까? 우리가 아래 사진처럼 웹페이지에서 마우스를 이용해서 드래그하여 복사 붙여넣기 하는 것도 일종의 크롤링이다. 이 작업을 자동으로, 그리고 필요한 정보들만 수집하게 해주는 과정을 크롤링이다. 2. 데이터의 종류 우리가 크롤링을 한다는 것은 데이터를 긁어온다는 뜻이다. 그런데 이러한 데이터는 종류가 있다. 1) 정형 데이터 Structured Data 우리가 흔히 자주 접하는 것이 정형 데이터이다. 예를 들어 a란 사람의 성별이..