headless-chrome-crawler 사용해보기
수집, 크롤링에 관심이 생겨서 자료를 찾다 발견한 headless-chrome-crawler(이하 HCC)를 사용해보기 위해 가상머신을 세팅하고 테스트 환경을 구성했다. 머신은 Ubuntu 18.04 로 설정하는데 관리 편의를 위해 vagrant 를 사용한다.
1. 가상머신 접속
vagrant ssh
2. nodejs 설치
curl -sL https://deb.nodesource.com/setup_10.x | sudo -E bash -
sudo apt-get install -y nodejs
3. yarn 설치
npm install -g yarn
4. headless-chrome-crawler 설치
git clone https://github.com/yujiosaka/headless-chrome-crawler.git
cd headless-chrome-crawler
yarn add headless-chrome-crawler
5. 실행 테스트
node examples/priority-queue.js
실행 결과는 아래와 같다.
Requested https://example.com/.
Requested https://example.net/.
만약 libX11-xcb.so.1 관련 오류가 발생한다면 아래의 명령으로 필요 패지키를 설치한다.
sudo apt install -y gconf-service libasound2 libatk1.0-0 libc6 libcairo2 libcups2 libdbus-1-3 libexpat1 libfontconfig1 libgcc1 libgconf-2-4 libgdk-pixbuf2.0-0 libglib2.0-0 libgtk-3-0 libnspr4 libpango-1.0-0 libpangocairo-1.0-0 libstdc++6 libx11-6 libx11-xcb1 libxcb1 libxcomposite1 libxcursor1 libxdamage1 libxext6 libxfixes3 libxi6 libxrandr2 libxrender1 libxss1 libxtst6 ca-certificates fonts-liberation libappindicator1 libnss3 lsb-release xdg-utils wget