심플 웹 크롤러 API
용도 : CORS의 제약 없이 원하는 웹페이지를 크롤링 할 수 있습니다.
사용법
- API를 호출합니다. 주소: http://api.juwon.info, type : "POST"
- url, method, data정보는 필수입니다.(parameter 값이 없을 경우에도 {'':''} 값을 추가해주세요.
- GET 방식에서 물음표 이후의 값은 data 필드에 입력합니다.(JSON)
- 간단한 페이지 크롤링
- ajax를 이용한 샘플코드 l
let params = {'query':'날씨'};
//크롤링 하고 싶은 사이트 정보(GET방식 예제)
let d = {
'url':'https://search.naver.com/search.naver',
'method':'GET',
'parameters': JSON.stringify(params)
};
$.ajax({
url:'http://api.juwon.info/getSimpleHTML',
type:'POST',
data:d,
success:function (res){
console.log(res) // result
}
});
- 세션정보를 포함한 크롤링(로그인사이트)
- 위 방법에서는 data parameter에 "datas"를 JSON형태로 전달하면 됩니다.
- ajax를 이용한 샘플코드
let datas = [{
'url':'https://search.naver.com/search.naver',
'method':'GET',
'data': {'query':'날씨'}
},{
'url':'https://search.naver.com/search.naver',
'method':'GET',
'data': {'query':'날씨'}
}
];
$.ajax({
url:'http://api.juwon.info/getSessionHTML',
type:'POST',
data:{'datas':JSON.stringify(datas)},
success:function (res){
console.log(res) // result
}
});
- datas는 크롤링하고자 하는 사이트의 정보 배열입니다.
- datas배열 중 마지막 크롤링 결과만 리턴됩니다.
- 로그인 스크립트 전송, 실제 데이터 전송 형태로 활용하시면됩니다.
- 실제데이터는 이 서버에 저장되지 않습니다. 이후 발생할 수 있는 문제는 사용자 책임입니다.
댓글