본문 바로가기
프로그래밍/back end 백 엔드

python을 이용해서 web scrapping 하기 - (1)

by 어느덧중반 2021. 8. 22.
반응형

web scrapping은 해당 url에서 필요한 정보만 쏙 뽑아 정리할 수 있도록 도와주는 것

구글에서 브래드 피트를 검색하면 관련 뉴스가 뜰 것이며(사진과 제목 등) 참여했던 영화목록도 볼 수 있을 것.

이 것이 스크래핑이다.

 

외국의 저명한 구직사이트는 indeed와 stackoverflow가 있다.

만약 indeed에서 python을 검색하게 되면 외부 사이트에서 모집하는 python 관련 링크가 검색될 것이다.

구인모집글 제목, 구인회사, 근무지 등이 나오는걸 알 수 있음.

 

👉🏻 무얼 할 것인가?

파이썬을 이용해 indeed와 stackoverflow에 있는 모든 페이지의 구직정보를 엑셀에 담아 저장할 것

 

👉🏻 웹스크래퍼 코딩 과정

- python을 이용해 indeed와 stackoverflow에 접속 (전체 페이지 수 세기)
   * indeed 1페이지 검색결과 50개씩으로 설정 변경해야 함
   * 파이썬에서는 import requests 이용 

import requests 해주고, 해당 url정보로 get해주기

   * 현재 indeed_result.text에는 해당페이지 전체의 html을 담고 있다.
   * 우리는 페이지수를 가져와야 한다. (beautifulsoup을 이용해보자 - 문법은 beautifulsoup quick start 참고하면 됨)

  * 이제 아래 것들을 맘껏 쓸 수 있다. (html 구조별로 접근이 가능)

find_all()을 이용하면 list로 담아줌

  * 우리는 페이지 나온 부분을 추출해야 하는데 <div class="pagination"> 이라는 것을 알 수 있다.

  * pages 까지 가져오고 각 페이지들까지 접근할 수 있다.

마지막줄에 있는 Next는 쓰이지 않으므로 삭제 처리 해줘야 한다.
spans라는 빈 리스트 만들고 각 페이지에서 찾은 span값을 spans에 append

 

span[:-1] 을 이용해서 가장 마지막값 삭제하기

반응형

댓글