puppeteer, cheerio 를 이용한 웹 크롤링
puppeteer, cheerio 를 이용해 네이버 쇼핑의 특정 카테고리 상품명 가격을 크롤링하여 콘솔에 표시하는 것을 테스트했다. nodejs 와 puppeteer, cheerio 는 미리 설치되어 있어야 한다. cheerio 는 jQuery 문법을 그대로 사용할 수 있어 상당히 편하다.
네이버 쇼핑의 상품정보를 크롤링하는 경우에는 puppeteer 모듈을 사용하지 않고도 가능하다. 하지만 최근의 vue.js 등을 사용한 웹페이지는 크롤링이 가능하지 않을 수 있기 때문에 puppeteer 를 사용한다.
테스트에 사용한 코드는 아래와 같다.
const puppeteer = require('puppeteer');
const $ = require('cheerio');
function sleep(ms){
return new Promise(resolve => {
setTimeout(resolve, ms)
});
}
async function printConsole(content) {
const body = $.load(content);
const anchorsSelector = '#_search_list ul.goods_list li div.info';
var anchors = [];
var title, price, url, elA;
body(anchorsSelector).each(function() {
anchors.push($(this));
});
if (anchors.length > 0) {
var i = 0;
for (const el of anchors) {
elA = el.children("a.tit");
title = elA.text().trim();
url = elA.attr("href");
price = el.find(".price em span._price_reload").text().trim();
//console.log(title + "(" + price + ")" + " - " + url);
console.log(title + "(" + price + ")");
i++;
if (i < anchors.length)
await sleep(1000);
}
}
}
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://search.shopping.naver.com/search/category.nhn?pagingIndex=1&pagingSize=40&viewType=list&sort=rel&cat_id=50000089&frm=NVSHCAT", { waitUntil : "networkidle2" });
const content = await page.content();
await printConsole(content);
await browser.close();
})();
위 코드를 실행한 결과는 아래와 같다.
한성컴퓨터 TFG AX9466(783,710)
프리플로우 GAMING i5-9400F RGB + 외장형 그래픽카드(645,000)
삼성전자 오디세이 DM800V7A-A716A(1,762,900)
삼성전자 DM500S8A-A24BA(557,200)
대한컴퓨터 게이밍 조립컴퓨터 배틀그라운드 오버워치 배그 GTX1660Ti 사무용 견적(498,000)
게이밍 조립컴퓨터 배틀그라운드 오버워치 배그 GTX1660Ti 라이젠 3600 3700 사무용 본체 견적(699,000)
애플 아이맥 27형 2019년형 (MRQY2KH/A)(1,942,340)
LG전자 24V570-GR32K(719,000)