HTML 소스에서 태그와 개행문자 날리기
2022. 2. 3. 17:47ㆍ파이썬/데이터 스크래핑
import re
pattern = '<[^>]*>'
text = df.text[0]
text = re.sub(pattern=pattern, repl='', string=text)
pattern = r"\r|\n|\xa0"
text = re.sub(pattern=pattern, repl='', string=text)
text = text.strip()
제곧내
반응형
'파이썬 > 데이터 스크래핑' 카테고리의 다른 글
| 03. 침착맨의 기사를 여러 페이지, 다양한 정렬로 스크래핑 해오자. (0) | 2021.09.07 |
|---|---|
| 02. 스크래핑한 내용을 판다스 DataFrame에 저장하기 (01 복습) (0) | 2021.09.06 |
| 1. 뉴스에 들어가서 여러가지 스크래핑 해오기. (0) | 2021.09.05 |
| 0. 웹에서 원하는 정보를 긁어오자. (0) | 2021.09.04 |