강의로 돌아가기
신동철

크롤링프로그램을 만들기 위해 파이썬을 배우는 학생입니다.

멋진 강의 정말 잘 듣고 있습니다. 감사합니다.

질문이 있어서 글을 남기는데요.

크롤링을 하기위해 urllib 을 사용하는 요번 예제에서요.

네이버블로그 내용을 크롤링하기위해 urllib.response와 urlopen , decode 를 사용해서 크롤링을 하면,

일부 html 내용이 누락되어서 블로그 내용이 안보이는 문제가 발생합니다. 다른 홈페이지는 잘되는데 네이버블로그만 잘 않됩니다.

html 코드를 보니까, % 문자가 들어가는 것과 일부 html 문법들이 누락되던데 어떤게 문제일까요?

decode 로 utf-8 해서 누락되는 것 일 까요?

제 파이썬 프로그램은 visual-studio 2017 을 사용하고, powershell 도 같이 사용합니다.

1 개의 답변
신동철

해결 되었습니다.
네이버 블로그는 해당 url을 그냥 크롤링 하면 끝인게 아니라, frame의 src 에서 계속 연결되더라구요. 인터넷 뒤적거리다알았씁니다.

답변 쓰기
이 입력폼은 마크다운 문법을 지원합니다. 마크다운 가이드 를 참고하세요.