본문 바로가기
알면좋아요

심플 웹 크롤러

by 자연은 원래 느리다 2021. 4. 13.

심플 웹 크롤러 API

용도 : CORS의 제약 없이 원하는 웹페이지를 크롤링 할 수 있습니다.

api.juwon.info/

 

Simple Web Crawler

심플 웹 크롤러 API 용도 : CORS의 제약 없이 원하는 웹페이지를 크롤링 할 수 있습니다. 제작 : bigdipper81@gmail.com 사용법 API를 호출합니다. 주소: http://api.juwon.info, type : "POST" url, method, data정보는 필

api.juwon.info

사용법

  • API를 호출합니다. 주소: http://api.juwon.info, type : "POST"
  • url, method, data정보는 필수입니다.(parameter 값이 없을 경우에도 {'':''} 값을 추가해주세요.
  • GET 방식에서 물음표 이후의 값은 data 필드에 입력합니다.(JSON)
  • 간단한 페이지 크롤링
  • ajax를 이용한 샘플코드 l
 let params = {'query':'날씨'};
    //크롤링 하고 싶은 사이트 정보(GET방식 예제)
    let d = {
            'url':'https://search.naver.com/search.naver',
            'method':'GET',
            'parameters': JSON.stringify(params)
    };
    $.ajax({
        url:'http://api.juwon.info/getSimpleHTML',
        type:'POST',
        data:d,
        success:function (res){
            console.log(res)  // result
        }
    });

 

  • 세션정보를 포함한 크롤링(로그인사이트)
  • 위 방법에서는 data parameter에 "datas"를 JSON형태로 전달하면 됩니다.
  • ajax를 이용한 샘플코드 
  let datas = [{
                'url':'https://search.naver.com/search.naver',
                'method':'GET',
                'data': {'query':'날씨'}
                },{
                'url':'https://search.naver.com/search.naver',
                'method':'GET',
                'data': {'query':'날씨'}
                }
                ];
    $.ajax({
        url:'http://api.juwon.info/getSessionHTML',
        type:'POST',
        data:{'datas':JSON.stringify(datas)},
        success:function (res){
            console.log(res)  // result
        }
    });

 

  • datas는 크롤링하고자 하는 사이트의 정보 배열입니다.
  • datas배열 중 마지막 크롤링 결과만 리턴됩니다.
  • 로그인 스크립트 전송, 실제 데이터 전송 형태로 활용하시면됩니다.
  • 실제데이터는 이 서버에 저장되지 않습니다. 이후 발생할 수 있는 문제는 사용자 책임입니다.

댓글