아파치 너치(Apache Nutch) 설치하기
우분투 환경에서 아파치 너치(Apache Nutch)의 설치 방법에 대해 알아보겠습니다.
(2.x 버전을 기준으로 설치를 진행했습니다)
Apache Nutch Download
아래 경로에서 Apache Nutch를 다운로드 받습니다.
2.3.1 버전의 src.tar.gz 파일을 다운로드 받습니다.
위의 페이지로 이동하게 되는데 미러 사이트 링크를 클릭하여 다운로드 해줍니다.
Apache Nutch 설치
Apache Nutch의 설치에 앞서 사전에 Apache Ant와 Java 및 MySQL을 설치해줘야 합니다.
Java 설치
※ JDK 1.6 이상으로 설치해주세요.
Apache Ant Download
※ Apache Ant도 마찬가지로 bin.tar.gz 파일을 다운로드 받아주시면 됩니다.
MySQL 설치
위의 프로그램들을 모두 설치했다면 Nutch를 설치하기 위해 다운로드 받은 Ant와 Nutch를 실습 환경으로 옮겨주고
루트 디렉터리에 압축을 풀어줍니다.
압축을 푼 후엔 접속한 계정에 맞춰서 권한을 변경해줍니다.
$ sudo mv apache-ant-1.10.1-bin.tar.gz apache-nutch-2.3.1-src.tar.gz /
$ sudo tar -xvzf /apache-ant-1.10.1-bin.tar.gz /
$ sudo tar -xvzf /apache-nutch-2.3.1-src.tar.gz /
$ sudo chown -R [계정아이디]:[계정아이디] /apache-ant-1.10.1
$ sudo chown -R [계정아이디]:[계정아이디] /apache-nutch-2.3.1
다음으로 .configure 파일에 Nutch와 Ant의 Path를 설정해줍니다.
저장 후 source 명령어로 적용해줍니다.
$ source .configure
※ .configure 파일이 없는 경우 접속한 계정의 홈 디렉터리에 생성해주시고 설정하고자 하는 프로그램의 Path를 지정해주시면 됩니다.
Path 설정이 완료됐으면 Nutch의 홈 디렉터리로 이동합니다.
$ cd /apache-nutch-2.3.1
이동 후 ant를 사용하여 빌드해줍니다.
(처음 빌드할 경우 시간이 많이걸리니 기다려주세요)
$ ant -v
※ ant의 -v 옵션은 디버그 모드로써 빌드시 진행 상황을 확인할 수 있습니다.
빌드가 완료되면 runtime 디렉터리가 생성되는데 runtime/local/bin 디렉터리로 이동하면,
다음과 같이 crawl과 nutch 파일이 생성된 것을 확인할 수 있습니다.
이동한 runtime/local/bin 디렉터리에서 nutch 명령어를 실행하면 위와 같은 내용이 출력됩니다.
여기까지 완료됐다면 Apache Nutch가 정상적으로 설치된 것입니다.
이상으로 Ubuntu 환경에서 Apache Nutch 설치 방법에 대해서 알아보았습니다.
※ 참고 문헌
Abdulbasit Shaikh, Zakir Laliwala, 『Web Crawling and Data Mining with Apache Nutch』, Packt Publishing(2013)
Apache, apache nutch, http://nutch.apache.org
- Apache, apache ant, http://ant.apache.org