Skip to content

CHICPRO

  • Life Log
  • Cycling Log
  • Photo Log
    • Portrait
    • Landscape
    • Flower
    • Etc
  • Coding Log
  • Information

[nodejs] request, cheerio 를 이용한 웹페이지 크롤링

2018-10-05 by 편리

nodejs 를 이용하 웹페이지를 크롤링하는 것을 스터디 하고 있다. 아래는 nodejs의 request, cheerio 모듈을 이용하여 SIR 의 자유게시판의 제목, 작성자이름, ip 정보를 크롤링하는 코드이다. 자유게시판 리스트에 접속하여 게시글보기 링크의 href 값을 얻어 각 게시글보기 페이지에 접속하여 제목, 작성자명, ip 정보를 수집한다. SIR 사이트에 동시접속하는 것을 막기 위해 async, await 구문을 사용하여 순차적으로 게시글 보기가 실행되도록 했다.

사용모듈

  • https://github.com/request/request
  • https://github.com/cheeriojs/cheerio
const request = require('request').defaults({jar: true});
const cheerio = require('cheerio');

function downloadPage(url)
{
    return new Promise((resolve, reject) => {
        request(url, (error, response, body) => {
            if (error) reject(error);
            if (response.statusCode != 200) {
                reject('Invalid status code <' + response.statusCode + '>');
            }
            resolve(body);
        });
    });
}

function sleep(ms){
    return new Promise(resolve => {
        setTimeout(resolve, ms)
    });
}

async function getInfo(urls)
{
    try {
        for (i=0; i<urls.length; i++) {
            if (i > 0)
                await sleep(5000);

            var url = urls[i];
            var patt = /^https?:/;
            if (!patt.test(url))
                url = "https:" + url;
            var body = await downloadPage(url);

            var $ = cheerio.load(body);

            var title = $("#head_title", $("header.vbo_head")).text().trim();
            var name  = $("span.member", $("ul#head_info")).text().trim();
            var ip    = $("#info_name", $("ul#head_info")).children().remove().end().text().trim();

            console.log(title + " => " + name + " " + ip);
        }
    } catch (error) {
        console.log(error);
    }
}

try {
    request("https://sir.kr/cm_free", (error, response, body) => {
        var $ = cheerio.load(body);
        var hrefs = [];

        var lists = $("a.title_link", ".li_title", $("#sir_lbo"));

        lists.each(function() {
            var href = $(this).attr("href");

            hrefs.push(href);
        });

        if (hrefs.length > 0) {
            getInfo(hrefs);
        }
    });
} catch (error) {
    console.log(error);
}

각 게시글보기 실행은 await sleep(5000);  코드를 통해 5초 간격으로 실행되도록 했다.

Post navigation

Previous Post:

smartmontools의 저장장치 오류 알림 메일로 받기

Next Post:

[nodejs] puppeteer 를 이용한 네이버 회원 로그인

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent Posts

  • php 배열 연산에서 + 와 array_merge 의 차이
  • pcntl_fork 를 이용한 다중 프로세스 실행
  • 아이폰 단축어를 이용하여 주중 공휴일엔 알람 울리지 않게 하기
  • 구글 캘린더 전체일정 재동기화
  • OpenLiteSpeed 웹서버에 HTTP 인증 적용
  • OpenLiteSpeed 웹어드민 도메인 연결
  • WireGuard를 이용한 VPN 환경 구축
  • Ubuntu 22.04 서버에 OpenLiteSpeed 웹서버 세팅
  • 맥 vim 세팅
  • 우분투 시스템 터미널쉘 zsh 로 변경

Recent Comments

  • 편리 on 업무관리용 그누보드 게시판 스킨
  • 임종섭 on 업무관리용 그누보드 게시판 스킨
  • 캐논 5D 펌웨어 | Dslr 펌웨어 업그레이드 방법 82 개의 베스트 답변 on 캐논 EOS 30D 펌웨어 Ver 1.0.6 , EOS 5D 펌웨어 Ver 1.1.1
  • Top 5 캐논 5D 펌웨어 Top 89 Best Answers on 캐논 EOS 30D 펌웨어 Ver 1.0.6 , EOS 5D 펌웨어 Ver 1.1.1
  • 편리 on 워드프레스 애니메이션 gif 파일을 mp4로 변환하여 출력하기
  • 임팀장 on 워드프레스 애니메이션 gif 파일을 mp4로 변환하여 출력하기
  • 편리 on Notepad++ NppFTP 플러그인 수동 설치
  • paul-j on Notepad++ NppFTP 플러그인 수동 설치
  • YS on Windows 10 iCloud 사진 저장 폴더 변경
  • 편리 on Docker를 이용한 Centos7 + httpd + php 5.4 개발환경 구축

Meta

  • Log in
  • Entries feed
  • Comments feed
  • WordPress.org
© 2025 CHICPRO | Built using WordPress and SuperbThemes