Impoerxml로 크롤링 할때

Impoerxml로 크롤링 할때

작성일 2023.02.11댓글 1건
    게시물 수정 , 삭제는 로그인 필요

안녕하세요 구글스트레드시트에 xpath를 가져와서 크롤링을 하려고 합니다.
유튜브를 보고 따라했는데 네이트판은 되는데 네이버 단어장에 내가 저장한 단어의 xpath는 “가져온 콘텐츠가 비어있습니다”라고 뜹니다.
inportxml(사이트 주소, xml) 이렇게 했습니다.
혹시 로그인 때문인가 해서 로그아웃 하고 네이버 사전에 영어단어 하나 시도해 봤는데 같은 증상입니다.
혹시 구글 함수로는 방법이 없는지요?
아니면 파이썬을 써야 할까요;;



profile_image 익명 작성일 -

구글 스프레드시트에서 IMPORTXML 함수로 크롤링할 때, 로그인이 필요한 사이트에서 데이터를 가져오려고 하면 가져오지 못할 수 있습니다. 이는 로그인이 필요한 사이트의 데이터는 접근제한이 있기 때문에 가져오지 못하는 경우가 많습니다.

대안으로 파이썬을 사용하는 것이 좋습니다. 파이썬에서는 BeautifulSoup, Requests 등의 라이브러리를 사용하여 로그인이 필요한 사이트에서도 데이터를 가져올 수 있습니다. 다음과 같이 로그인 후에 특정 URL의 HTML 데이터를 가져오는 코드를 작성할 수 있습니다.

import requests session = requests.Session() # Login login_url = 'https://www.example.com/login' data = {'username': 'your_username', 'password': 'your_password'} session.post(login_url, data=data) # Get HTML data html_url = 'https://www.example.com/data' html_data = session.get(html_url).text # Parse HTML data using BeautifulSoup or any other library