python을 이용해서 web scrapping 하기

web scrapping은 해당 url에서 필요한 정보만 쏙 뽑아 정리할 수 있도록 도와주는 것

구글에서 브래드 피트를 검색하면 관련 뉴스가 뜰 것이며(사진과 제목 등) 참여했던 영화목록도 볼 수 있을 것.

이 것이 스크래핑이다.

외국의 저명한 구직사이트는 indeed와 stackoverflow가 있다.

만약 indeed에서 python을 검색하게 되면 외부 사이트에서 모집하는 python 관련 링크가 검색될 것이다.

👉🏻 무얼 할 것인가?

파이썬을 이용해 indeed와 stackoverflow에 있는 모든 페이지의 구직정보를 엑셀에 담아 저장할 것

👉🏻 웹스크래퍼 코딩 과정

- python을 이용해 indeed와 stackoverflow에 접속 (전체 페이지 수 세기)
* indeed 1페이지 검색결과 50개씩으로 설정 변경해야 함
* 파이썬에서는 import requests 이용

* 현재 indeed_result.text에는 해당페이지 전체의 html을 담고 있다.
* 우리는 페이지수를 가져와야 한다. (beautifulsoup을 이용해보자 - 문법은 beautifulsoup quick start 참고하면 됨)

* 이제 아래 것들을 맘껏 쓸 수 있다. (html 구조별로 접근이 가능)

* 우리는 페이지 나온 부분을 추출해야 하는데 <div class="pagination"> 이라는 것을 알 수 있다.

* pages 까지 가져오고 각 페이지들까지 접근할 수 있다.

python을 이용해서 web scrapping 하기 - (1)