강의로 돌아가기
김영덕

질문이 아닌 강의를 듣는 분들에게 대한 작은 팁입니다.

example1 = BeautifulSoup(train['review'][0], html5lib)
print(train['review'][0][:700])
example1.get_text()[:700]

html 구문을 없애는 parser 구간입니다.

html5lib를 통해 없애려 하다보면

FeatureNotFound: Couldn't find a tree builder with the features you requested: html5lib. Do you need to install a parser library?

라는 에러가 발생하시는 분들이 있을 수도 있습니다. parser library에서 html5lib를 찾지 못하는 것 같은데 cmd 등을 통해 install을 진행해도 인식하지 못하는 분들이 있을 것이라 생각합니다.(해외에서도 꽤 있는 문제 중 하나더군요.)

이 경우에는 pip install lxml을 진행하시고

example1 = BeautifulSoup(train['review'][0], lxml)
print(train['review'][0][:700])
example1.get_text()[:700]

을 진행하시면 되겠습니다.

0 개의 답변
답변 쓰기
이 입력폼은 마크다운 문법을 지원합니다. 마크다운 가이드 를 참고하세요.