Apache/Nutch

· Apache/Nutch
아파치 너치(Apache Nutch) 설치하기 우분투 환경에서 아파치 너치(Apache Nutch)의 설치 방법에 대해 알아보겠습니다. (2.x 버전을 기준으로 설치를 진행했습니다) Apache Nutch Download 아래 경로에서 Apache Nutch를 다운로드 받습니다. http://nutch.apache.org/downloads.html 2.3.1 버전의 src.tar.gz 파일을 다운로드 받습니다. 위의 페이지로 이동하게 되는데 미러 사이트 링크를 클릭하여 다운로드 해줍니다. Apache Nutch 설치 Apache Nutch의 설치에 앞서 사전에 Apache Ant와 Java 및 MySQL을 설치해줘야 합니다. Java 설치http://freestrokes.tistory.com/entry/..
· Apache/Nutch
아파치 너치(Apache Nutch) Architecture & Crawling 구조 아파치 너치(Apache Nutch)의 Architecture와 Crawling 구조에 대해 알아보겠습니다. (실습에 사용할 Nutch2.x 버전을 기준으로 알아보았습니다.) Apache Nutch Architecture * 데이터 구조 (Data Structure) Apache Nutch는 다음의 데이터 구조를 가지고 동작합니다. · CrawlBaseUrl : CrawlState 필드에 사용CrawlState : 현재 상태를 나타내는 필드CrawlDatum : 메타 데이터를 저장CrawlHistory : 역순으로 정렬된 CrawlDatum 개체 목록 · CrawlListUrl : CrawlHistory 필드에 사용(C..
· Apache/Nutch
아파치 너치(Apache Nutch) 소개 아파치 너치(Apache Nutch)의 사용에 앞서 특징과 역사에 대해 알아보도록 하겠습니다. Apache Nutch Apache Nutch는 웹 사이트 크롤링(crawling)을 위한 오픈 소스 웹 크롤러 소프트웨어 프로젝트이며 아파치 루씬 (Apache Lucene)을 근간으로 만들어졌고 다양화되어 발전해왔습니다. Nutch는 검색시 애플리케이션 페이지의 rank를 높이고 필요에 따라 커스터마이징할 수 있는 자체 검색 엔진을 제공하며 뛰어난 확장성(extensible and scalable)을 제공합니다. 이를 활용하면 구글과 같은 검색 엔진을 만들 수 있습니다. Nutch는 확장성을 통해 플러깅이 가능(pluggable)하고 모듈화 된 것이 장점이기 때문에..
freestrokes
'Apache/Nutch' 카테고리의 글 목록