반응형
web scrapping은 해당 url에서 필요한 정보만 쏙 뽑아 정리할 수 있도록 도와주는 것
구글에서 브래드 피트를 검색하면 관련 뉴스가 뜰 것이며(사진과 제목 등) 참여했던 영화목록도 볼 수 있을 것.
이 것이 스크래핑이다.
외국의 저명한 구직사이트는 indeed와 stackoverflow가 있다.
만약 indeed에서 python을 검색하게 되면 외부 사이트에서 모집하는 python 관련 링크가 검색될 것이다.
👉🏻 무얼 할 것인가?
파이썬을 이용해 indeed와 stackoverflow에 있는 모든 페이지의 구직정보를 엑셀에 담아 저장할 것
👉🏻 웹스크래퍼 코딩 과정
- python을 이용해 indeed와 stackoverflow에 접속 (전체 페이지 수 세기)
* indeed 1페이지 검색결과 50개씩으로 설정 변경해야 함
* 파이썬에서는 import requests 이용
* 현재 indeed_result.text에는 해당페이지 전체의 html을 담고 있다.
* 우리는 페이지수를 가져와야 한다. (beautifulsoup을 이용해보자 - 문법은 beautifulsoup quick start 참고하면 됨)
* 이제 아래 것들을 맘껏 쓸 수 있다. (html 구조별로 접근이 가능)
* 우리는 페이지 나온 부분을 추출해야 하는데 <div class="pagination"> 이라는 것을 알 수 있다.
* pages 까지 가져오고 각 페이지들까지 접근할 수 있다.
반응형
댓글