크롤링

· Apache/Nutch
아파치 너치(Apache Nutch) 소개 아파치 너치(Apache Nutch)의 사용에 앞서 특징과 역사에 대해 알아보도록 하겠습니다. Apache Nutch Apache Nutch는 웹 사이트 크롤링(crawling)을 위한 오픈 소스 웹 크롤러 소프트웨어 프로젝트이며 아파치 루씬 (Apache Lucene)을 근간으로 만들어졌고 다양화되어 발전해왔습니다. Nutch는 검색시 애플리케이션 페이지의 rank를 높이고 필요에 따라 커스터마이징할 수 있는 자체 검색 엔진을 제공하며 뛰어난 확장성(extensible and scalable)을 제공합니다. 이를 활용하면 구글과 같은 검색 엔진을 만들 수 있습니다. Nutch는 확장성을 통해 플러깅이 가능(pluggable)하고 모듈화 된 것이 장점이기 때문에..
freestrokes
'크롤링' 태그의 글 목록