구글시트, 웹 크롤링 초보 질문 드립니다.

Question

쇼핑몰 운영중이고요

매일 저와 같은 카테고리 내의 사이트들 체크하고 있었습니다.

그 와중에 크롤링이라는 것을 알게 되어 활용해보려는중 막히는 부분이 있어 질문 드리게 되었습니다.

제가 사용하는 방법은,

유튜브에서 본 구글시트에서 importXML이라는것을 사용해 xpath복사하는 방법으로 하고 있습니다.

코딩은 잘 모르고, 기본적인 HTML이나 엑셀정도만 다룰줄 아는 정도입니다.

https://search.shopping.naver.com/search/all.nhn?query=%22%EA%B0%9C%EB%B0%A5%EA%B7%B8%EB%A6%87%22&cat_id=&frm=NVSHATC

예를 들어 이런카테고리 안에 '리뷰', '구매건수'등은 구글시트로 불러와지는데,

'찜하기'는 계속 #N/A라고 나오고 있습니다.

백방으로 알아봤으나 원인을 알 수 없었습니다.

사실 매일 들어와서 눈으로 보고 체크해도 되는데 좀 더 편하게 해보려는것이라

만약 '찜하기'를 불러 오는데 너무 많은(어렵고 전문적인ㅠㅠ)노력이 필요하다면 차라리 포기하는게 낫다 생각해서

우선 이런판단을 하기위해 질문드리게 되었습니다.

전문가분들의 조언 부탁드리겠습니다.

Accepted Answer

크롤링 관련 질문이시네요. ​ 대부분 크롤링 관련은 약간은 불법적인 소지가 있어서 문제시 되기 때문에 해당 항목에 대해서는 조심하는 것이 좋은데요. ​ 이 항목의 예시로 볼때 해당 찜하기의 숫자항목이 왜 안되는 것인지를 확인하고 싶어하신듯하여 해당 부분에 대한 답변만 드려보면, ​ 다른 부분들이 잘 가져와 지는 것은 숫자에 대한 타입이나 기타 타입이 잘 맞기 때문입니다. ​ 만약 안되는 이유중에 문자열 타입인 경우가 있을 수 있고, 다른 한가지 이유로는 데이터가 불러오는 속도라는 것이 있는데 가장 나중에 불러와 지는 형태여서 데이터를 못가져올 수 있다는 판단이 드네요. ​ 감사합니다.

구글시트, 웹 크롤링 초보 질문 드립니다.

구글시트, 웹 크롤링 초보 질문 드립니다.

구글 이미지 엑셀 웹크롤링 방법 문의

구글 워크시트로 만든 사이트가 검색에...

파이썬 셀레니움 크롤링 질문입니다.

구글 pdf만 크롤링하는 코드

구글 스프레드 시트 질문 드립니다!

구글스프레드시트 html 웹페이지 제작...

구글 뉴스는 네이버 뉴스보다 크롤링이...

구글 스프레드 시트와 프로그래밍

파이썬 크롤링 질문