파이썬으로 크롤링한 텍스트가 인터프리터에 따라서 깨지기도, 안 깨지기...

파이썬으로 크롤링한 텍스트가 인터프리터에 따라서 깨지기도, 안 깨지기...

작성일 2022.02.13댓글 1건
    게시물 수정 , 삭제는 로그인 필요

파이참에서 beautiful soup4를 이용하여 외부 웹 페이지를 크롤링하는 소스를 실행할 때
기존의 인터프리터를 사용하여 실행하면
크롤링한 텍스트가 정상적으로 한글로 출력되는데,

플라스크 때문에 따로 만든, 가상환경으로 새로 만든 인터프리터에서 실행하면 크롤링한 한글 텍스트가
ß°í±â¼Ò½º¿Í±¼ºñÆ¢±è/¶

이런 식으로 깨져서 나와요.
그렇다고 이 인터프리터에서 한글이 아예 안 되는 건 아니고, 크롤링할 때만 한글이 깨져서 나옵니다.
이유가 뭔가요? 혹시 관련 패키지가 설치 안 되어 있어서일까요?
아래 사진은 크롤링한 텍스트가 정상적으로 보이는, 기존 인터프리터의 패키지들입니다.




그리고 아래 사진은, 가상환경에서 만든? 인터프리터인데 크롤링한 한글 텍스트가 깨져 보입니다. (영어도 깨지는지는 확인 안 해봤어요.)
대신 크롤링한 게 아니라 소스에서 print('한글') 이렇게 쓰면 정상적으로 나옵니다.





어떻게 하면 두 번째 인터프리터로도 크롤링한 텍스트들이 한글이 제대로 나올까요?


+) 두 번째 인터프리터로는 항상 안 되는 게 아니라, 되는 시간대가 있고 안 되는 시간대가 있는 것 같습니다.. 분명히 어제 밤에는 두 번째 인터프리터로는 크롤링할 때 한글이 깨져서 나왔는데 오늘은 두 번째 인터프리터로도 한글이 제대로 나왔거든요. 근데 밤인 지금 다시 해 보니 두 번째 인터프리터로는 또 한글이 깨지네요.. 크롤링된 한글만 깨지고, print로 직접 쓴 한글은 제대로 나오구요.
왜 시간대에 따라 될 때가 있고 안 될 때가 있는 걸까요? 첫 번째 인터프리터로는 항상 안 깨집니다.



profile_image 익명 작성일 -

안녕하세요 보아코딩입니다

크롤링 했을때 한글 깨지는 문제는 인코딩때문입니다.

전과 후 비교해보니깐 뒤에꺼는 requests 라이브러리가 없습니다.

보통 requests 통해서 크롤링 html 을 긁어오는데 이 과정에서 차이가 있는 것 같습니다.

requests encoding값을 euc-kr, utf-8 설정하셔서 해결해보시길 바랍니다.

https://redcow77.tistory.com/480

도움되셨길 바랍니다.

용인 수지에서 코딩 수업을 찾으시면 방문해주세요

파이썬, 크롤링 - 제목이 한개만...

크롤링을 하면 전체데이타에는 분명히 제목텍스트가 item.select_one('div.BNeawe.vvjwJb.AP7Wnd').text 로 들어옵니다.한데 첫번째 한개만 들어옵니다....

파이썬 컴파일 해서 배포하기엔 좀...

... 하지만, 파이썬은 코드가 인터프리터에 의해 줄씩 실행되기 때문에, 일반적으로... 따라서, 파이썬크롤링을 비롯한 다양한 분야에서 널리 사용되고 있으며, 속도와...