'맥환경'에 해당되는 글 1건

  1. 2014.08.29 파이썬으로 웹페이지 크롤링하기 - Scrapy환경설정(Mac) (1) (3)

개인적으로 만들 앱에 필요한 데이타를 크롤링해야 해서 뭔가 간단하게 되는게 없을까 구글링 하던중 Scrapy라는 놈을 알게 되었다. 

생각보다 한글자료가 많이 없었기 때문에 혹시 scrapy를 사용하려는 개발자들이 내가 했던 삽질을 되풀이하게 하지 않기 위해 메모형식으로 남겨두려고 한다. 얼마나 도움될지는 모르지만...어쨋뜬!

먼저 첫번째로 환경설정에 대해 설명하고 두번째글에선 간단하게 사용하는 방법에 대하여 설명할까 한다. 

(본인도 파이썬은 리얼초보이므로 내용이 틀릴수 있으므로 저보다 더 잘 아시는 분께서는 지적 부탁드립니다.)


자..그럼..


개인적 사정상 윈도우환경과 맥환경을 동시에 설정을 해보았는데 이글에선 여기선 맥에 대해서만 설명하려고 한다.

윈도우설정하실분들은 구글폭풍검색으로 해결하시길..(본인의 경우 파이썬에 대한 기본지식이 없었던 탓에 윈도우환경설정은 꼬박 하루걸렸다능..

그에비해 맥환경에서는 한시간만에 샘플코드까지 실행성공할 수 있었다. 



기본적으로 아래의 링크(scrapy 공식홈페이지)를 따라 설치하면 된다. (물론 영어임.ㅠ ㅠ )

http://doc.scrapy.org/en/latest/intro/install.html


먼저 맨 상단에 scrapy를 설치하기위한 기본 설치항목들이 쭈욱 나열되있는데 꼭 설치를 해야한다. 이걸 하나라도 빼먹으면 scrapy가 동작하지 않을수 있다.


당연한 얘기지만 우선 파이썬 설치가 필요하다. 그러나 맥에서는 파이선은 2.7버전이 이미 들어가 있으므로 설치할 필요가 없다.

파이썬은 3.x버전까지 나와있는 상태이니 업데이트를 하고 싶은 본능이... 그러나 그건 쓸데없는 오지랍이다. scrapy의 지원버전이 2.7이므로 그냥 두시길..

혹시 모르니 터미널에서 파이썬 버전을 확인해 보자.


python —version


그다음 간단설치를 위한 setup-tool을 설치한다.

아래의 커맨드를 터미널에서 순서대로 실행하면 끝~


curl -O http://peak.telecommunity.com/dist/ez_setup.py

sudo python ez_setup.py

easy_install --help



또하나 설치에 필요한 pip를 설치해야 한다. 다른데에서도 많이 사용하는 모듈이므로 혹시 모르니 설치되어 있는지부터 확인해본다.

pip —version


설치가 안되어 있다면 설치 고고~

easy_install pip


이것도 필요한 라이브러리란다. 간단하게 pip로 설치.

pip install lxml


openssl도 필요하다니 설치한다.

easy_install PyOpenSSL

easy_install PyCrypto


이제 기본준비가 끝났으므로 주인공인 scrapy를 설치한다.

pip install Scrapy




설치 끝!



하지만 제대로 설치가 되어 있는지를 확인해 봐야 하므로 몇가지 scrapy 커맨드를 실행해 봐야 한다.

우선 hoge라는 프로젝트 생성해 보자.

scrapy startproject hoge


hoge라는 폴더가 생기고 몇가지 파일들이 에러없이 생성되면 설치가 제대로 된것이다.



크롤링이 제대로 되는지를 해봐야 하는데 만드는데 시간이 걸리므로 샘플소스를 다운받아서 실행해 보자.

https://github.com/scrapy/dirbot/archive/master.zip



dmoz라는 프로젝트가 만들어져 있는데 해당폴더로 이동하여 아래의 커맨드를 입력해 보자.

scrapy crawl dmoz -o items.json


뭔가 실행이 되고 items.json파일이 생기고 거기에 데이타가 들어가 있다면 crawling이 제대로 된다는 뜻이다.


그럼 이번글은 여기까지...


Posted by 악당잰 트랙백 0 : 댓글 3

댓글을 달아 주세요

  1. addr | edit/del | reply 김선영 2015.06.18 21:35

    안녕하세요.

    웹싸이트 크롤과 관련한 블로그글 잘 보고 갑니다. 제가 이번에 웹싸이트를 크롤을 처음해봅니다만, 위에서 말씀하신대로, scrapy, 파이썬, pip 을 전부 다운을 받아서 실행을 해야 하는 건지요? 파이썬은 다운을 받았습니다만, 다른 2개도 다운을 받아야 크롤이 가능한지요? 아참, 저도 일본에서 유학생활을 하고 있습니다만, 너무 반갑네요^^

    • addr | edit/del BlogIcon 악당잰 2015.06.20 12:54 신고

      네 반갑네요^^. 제 경험으로 말하자면 전부 다 필요했습니다. 실행되는듯하다가 알수없는 에러가 나고 그랬거든요. 아마도 설치환경에 따라 다른것 같습니다.

  2. addr | edit/del | reply 해해 2015.07.05 00:45

    감사합니다!!ㅠㅅㅠ 감동!!