crawl

· Apache/Nutch
아파치 너치(Apache Nutch) 설치하기 우분투 환경에서 아파치 너치(Apache Nutch)의 설치 방법에 대해 알아보겠습니다. (2.x 버전을 기준으로 설치를 진행했습니다) Apache Nutch Download 아래 경로에서 Apache Nutch를 다운로드 받습니다. http://nutch.apache.org/downloads.html 2.3.1 버전의 src.tar.gz 파일을 다운로드 받습니다. 위의 페이지로 이동하게 되는데 미러 사이트 링크를 클릭하여 다운로드 해줍니다. Apache Nutch 설치 Apache Nutch의 설치에 앞서 사전에 Apache Ant와 Java 및 MySQL을 설치해줘야 합니다. Java 설치http://freestrokes.tistory.com/entry/..
· Apache/Nutch
아파치 너치(Apache Nutch) Architecture & Crawling 구조 아파치 너치(Apache Nutch)의 Architecture와 Crawling 구조에 대해 알아보겠습니다. (실습에 사용할 Nutch2.x 버전을 기준으로 알아보았습니다.) Apache Nutch Architecture * 데이터 구조 (Data Structure) Apache Nutch는 다음의 데이터 구조를 가지고 동작합니다. · CrawlBaseUrl : CrawlState 필드에 사용CrawlState : 현재 상태를 나타내는 필드CrawlDatum : 메타 데이터를 저장CrawlHistory : 역순으로 정렬된 CrawlDatum 개체 목록 · CrawlListUrl : CrawlHistory 필드에 사용(C..
freestrokes
'crawl' 태그의 글 목록