0108 본문 불러오기
본문 내용 불러오기
- BeautifulSoup으로 select한 값에서 text만 불러오기
- Q.
find
vs select
- time 구하기
- %time: 단일 명령문의 실행 시간
- %timeit: 정확도 향상을 위해 단일 명령문을 반복적으로 실행하는 시간
- %prun: 프로파일러로 코드 실행
- %lprun: 라인별 프로파일러로 코드 실행
- %memit: 단일 문장의 메모리 사용량 측정
%mprun: 라인별 메모리 프로파일러로 코드 실행
→ 사라짐
- 결과 :
예외처리
map, apply로 데이터를 수집할 텐데, 중간에 예외처리를 안해서 오류가 났다면
오류를 수정하고 처음부터 다시 수집해야 한다.
그런데 오류가 난 것은 제외하고 수집하면,
오류를 수정해서 나중에 수집 안된 데이터만 따로 수집해주면 됩니다.
try:
# 코드
except Exception as e:
# 오류 확인 코드
전체 내용 가져오기
처음부터 전체 데이터에 적용을 하면 중간에 오류가 났을 때 대처가 어렵습니다.
처음에 수집할 때는 일부 데이터에 적용해보고 잘 동작한다면 => 전체에 적용해 주세요!
- Q. progress_map과 progress_apply는 우리 코드에서는 똑같이 동작하는데 어떤 차이인가요?
- map, apply는 pandas의 메서드 → 반복문 대신 사용 가능
- 반복문 보다 속도가 빠름
- 많은 작업할 때는 어디까지 진행되었는지 상태확인이 어려움
- 그래서 tqdm의 도음을 받음
- progress_map(), progress_apply() 는 tqdm에서 판다스를 지원하는 기능 → 진행상태를 표시
하나로 병합하기
view_detail 변수에 있는 값은 Series 형태이기 때문에
concat으로 병합하기 위해선 list형태로 되어야 한다.