'웹크롤링' 태그의 글 목록

웹크롤링 네이버 주식 상장기업 주가(셀레나웹드라이버 이용)(2)

카테고리 없음 2020. 7. 8. 17:38

아래글에서 웹크롤링 네이버 주식 상장기업 주가를 얻는 방법에 대하여 설명하였습니다.

money-expert.tistory.com/7

웹크롤링 네이버 주식 상장기업 주가

지난 번에 올린 상승 종목에 이어 전략을 적용하려면 증시에 상장된 모든 종목의 일봉 정보도 필요합니다. 이 정보 역시 naver에서 가져올 수 있습니다. 코스피와 코스닥 정보를 얻을 수 있는 url��

money-expert.tistory.com

원래 의도했던 것은 1번 형식이었으나, 해당 web 페이지에 접속을 하면 default 상태인 2번 형식으로 데이터가 저장이 되었습니다. 다른 방법이 없어서 그냥 2번 형태로 자료를 사용하고 있었는데요.

새로운 로직은 과거 일봉 데이터가 필요합니다. 그래서 xing api를 이용하여 전 종목 일봉 데이터를 매일 받으려고 하니 시간이 너무 많이 걸립니다. 그냥 일봉 데이터만 있으면 되는데, 한번에 전 종목 일봉 데이터를 주는 TR이 없더군요.

그래서 1번 방식으로 데이터를 받을 수 있으면 일봉 데이터 관리를 빨리 할 수 있을 것 같아서 방법을 알아보았습니다.

결론적으로는 Selenium webdriver를 이용하면 1번 형태로 저장할 수 있습니다.

그 과정을 설명합니다.

우선 아래 사이트에서 크롬 browser를 가져와서 적절한 위치에 저장합니다.

Chrom : sites.google.com/a/chromium.org/chromedriver/downloads

Downloads - ChromeDriver - WebDriver for Chrome

WebDriver for Chrome

sites.google.com

1. 다운 받은 webdriver를 생성합니다.

driver = webdriver.Chrome("C:\\my\\chromedriver.exe")

2. 시세 정보를 주는 페이지에 접속하여 html 정보를 얻습니다. 이후 선택할 항목과 선택하지 않을 항목을 강제적으로 click하게 합니다. 이때 원하는 항목을 찾아야 하는데요. 찾는 방법은 여러가지가 있습니다. 만약 text 정보가 중복되지 않는다면 find_element_by_xpath() 함수를 이용하면 됩니다.

"시가"의 경우에는 중복되는 항목이 많아서 직접 id를 이용하여 찾습니다.

항목을 찾은 후 click()이라는 함수를 부르면 선택/비선택이 toggle됩니다. 즉 기존에 선택이 되어 있었으면 선택되지 않은 상태로, 선택되지 않았다면 선택된 상태로 바꿉니다. 이후 적용하기 버튼을 찾아 click을 합니다.

def open_naver_stock_page(driver, url) :

driver.get(url)

driver.find_element_by_xpath(".//*[contains(text(), '고가')]").click()

driver.find_element_by_id("option7").click() # 시가

driver.find_element_by_xpath(".//*[contains(text(), '저가')]").click()

driver.find_element_by_xpath(".//*[contains(text(), '외국인비율')]").click() # 삭제

driver.find_element_by_xpath(".//*[contains(text(), '상장주식수')]").click() # 삭제

driver.find_element_by_xpath(".//*[contains(text(), 'ROE')]").click() # 삭제

driver.find_element_by_css_selector('[alt="적용하기"]').click()

한 페이지에는 50개 종목씩 나옵니다. 한 페이지에 있는 정보를 모두 읽은 다음에는 다음 페이지 정보를 얻어야 하는데요. 앞에서 버튼 누른 것과 비슷한 방식을 사용합니다.

다행히 숫자로 찾으면 되는 상황이군요. 해당 페이지는 링크로 연결되어 있습니다. 따라서 find_element_by_link_text라는 함수를 이용하여 click을 합니다.

driver.find_element_by_link_text(str(i)).click()

10페이지가 넘으면 "다음" 이라는 버튼을 눌러야 11페이지부터 나옵니다. 비슷한 방식으로 '다음' 버튼에 해당하는 정보를 찾아 click을 호출해줍니다.

driver.find_element_by_link_text('다음').click()

selenium webdriver를 처음 사용해보았는데, 아주 강력한 능력을 가지고 있는 것 같습니다. 임의의 웹페이지에서 자동으로 입력도 하고, 선택도 하고, click도 할 수 있습니다.

이 방법을 응용하면 xing api가 지원하지 않는 증권사 웹 사이트에서 주문을 낼 수도 있을 것 같습니다. 이건 다음 기회에 방법을 알아보도록 하겠습니다.

이와 관련된 소스는 아래 github에 올려놓았습니다.

https://github.com/multizone-quant/system-trading/blob/master/day-bong-list-soup.py

설정

,

트랙백

웹크롤링으로 관리종목, 거래중지 종목 구하기

시스템트레이딩 2020. 6. 5. 00:31

자동 매매를 하게 되면 사지 말아야 할 주식이 있습니다. 예를들어 관리종목이라든가 본인이 싫어하는 종목 등등이 있겠죠. 혹시라도 매매할 대상으로 이런 종목이 선정이 되면 무시하는 부분을 추가하여야 합니다. 추가로 거래량이 별로 없는 종목들도 빼야합니다. 그래서 자동 매매를 할 때는 개인적으로 빼야할 종목 기록한 파일을 하나 더 사용을 합니다.

네이버 주식에서 관리종목, 거래중지 종목을 검색할 수 있습니다.

우선 관리종목과 거래정지 종목은 아래 링크로 검색할 수 있습니다.

관리종목 : https://finance.naver.com/sise/management.nhn
거래중지 : https://finance.naver.com/sise/trading_halt.nhn

위 두 링크에서 검색이 되는 종목을 뽑아보겠습니다.

주어진 url에서 BeautifulSoup을 이용하여 html 구조를 얻는다.

html 구조에 \tr로 시작하는 부분을 검색한 후

\th 부분에 있는 title 이름을 얻는다.

html 구조에 \td에 있는 주식 정보를 얻는다.
정보 중 종목명을 찾은 후 이에 해당하는 code를 찾아서 list에 보관

파일에 결과를 json 형태와 csv 형태로 저장한다.

전체 소스코드는 아래 깃허브에 있습니다.

https://github.com/multizone-quant/system-trading/blob/master/get_warning_stock_list

'시스템트레이딩' 카테고리의 다른 글

[시스템트레이딩] 전략 시뮬레이션(1) (2)	2020.11.16
차트 그릴 때 진입 위치를 표시하는 방법 (2)	2020.07.22
[파이썬] 요일 찾기에서 주말 건너뛰기 (0)	2020.05.30
[파이썬] Dart 공시정보 API를 이용한 실시간 공시정보 활용 (2)	2020.05.24
웹크롤링 네이버 주식 상장기업 주가 (0)	2020.05.23

설정

,

트랙백

웹크롤링 네이버 주식 상장기업 주가

시스템트레이딩 2020. 5. 23. 22:15

지난 번에 올린 상승 종목에 이어 전략을 적용하려면 증시에 상장된 모든 종목의 일봉 정보도 필요합니다. 이 정보 역시 naver에서 가져올 수 있습니다.

아래 그림에서 보듯이 네이버에서 가져올 수 있는 정보가 다양합니다만, 한 시점에 6항목을 고를 수 있습니다. default로 설정되어 있는 값은 본인이 원하는 값과 틀린 경우에는 필요한 정보를 선택을 하여야 합니다.

이렇게 웹 페이지에서 원하는 항목을 선택하기 위해서는 webdriver를 설치하여 페이지를 그려야합니다. 브라우저에 따라 webdriver가 있는데 아래는 chrom driver를 사용한 예입니다. chrom driver를 인터넷에서 찾아서 down받은 후 저장된 위치를 지정하여 사용하면 됩니다.

크롬웹드라이버에서 웹 페이지를 읽은 후 원하는 항목을 선택하는 방식을 이용하면 됩니다. 우선 원하는 url을 지정하여 화면에 뜨는 상태를 확인합니다.

우리가 필요한 것은 오늘 일봉 정보가 필요합니다. 즉 시가/고가/저가가 필요합니다. 이를 위하여 필요한 항목을 찾아서 click() 함수를 호출하고, 불필요한 항목을 찾아서 click()함수를 호출하면 원하는 항목으로 변경이 가능합니다.


    driver = webdriver.Chrome("C:\\my\\chromedriver.exe")
    url = https://finance.naver.com/sise/sise_market_sum.nhn?sosok=1'
    driver.get(url)

    driver.find_element_by_xpath(".//*[contains(text(), '고가')]").click()
    driver.find_element_by_id("option7").click()  # 시가
    driver.find_element_by_xpath(".//*[contains(text(), '저가')]").click()
    driver.find_element_by_xpath(".//*[contains(text(), '외국인비율')]").click()  # 삭제
    driver.find_element_by_xpath(".//*[contains(text(), '상장주식수')]").click()  # 삭제
    driver.find_element_by_xpath(".//*[contains(text(), 'ROE')]").click()  # 삭제

    driver.find_element_by_css_selector('[alt="적용하기"]').click()

이렇게 설정을 하면 아래와 같이 원하는 항목만 선택이 가능합니다.

코스피와 코스닥 정보를 얻을 수 있는 url은 다음과 같습니다.

코스피 : https://finance.naver.com/sise/sise_market_sum.nhnsosok=0
코스닥 : https://finance.naver.com/sise/sise_market_sum.nhn?sosok=1

한 화면에 보이는 종목의 수는 최대 50개이므로 페이지를 계속 변경해가면서 정보를 크롤링해야합니다.

url에 페이지 정보를 추가할 수 있습니다. page 번호를 증가시키면서 검색을 계속하면 됩니다.

https://finance.naver.com/sise/sise_market_sum.nhn?sosok=1&page=2

이러한 정보를 바탕으로 코스피, 코스닥 전 종목 일봉을 받아오는 크롤링 프로그램을 만들어보겠습니다.

우선 코스피, 코스닥 기본 url을 지정을 합니다. 현재 네이버에서 검색이 가능한 코스피,코스닥 각각의 최대 page 수를 지정합니다. 이후에는 loop를 돌면서 page 수를 증가시키면서 해당 page의 시세 정보를 가져오는 get_stock_list()를 부릅니다.

아래 함수는 특정 url에 있는 주식 시세 정보를 뽑아내는 함수입니다. (자세한 사항은 github 코드 참고)

~~~

def get_stock_list(url, cnt) :

~~~

네이버에서는 최대 6개까지 검색할 항목을 지정할 수 있는데요. 꼭 필요한 정보만 설정을 했습니다. 만약 다른 정보가 추가로 필요하다면 설정을 바꾼 후 한번 더 호출하면 될 것 같습니다.

해당 페이지에서 주식 시세를 뽑는 방법은 이전 글에서 설명한 상승종목 뽑는 방식과 동일합니다. 다만 첫 컬럼에 있는 no 값이 1부터 시작하는 것이 아니라 페이지 별로 50씩 증가하는 값을 입력을 받아서 사용하는 부분만 차이가 납니다.

이렇게 뽑혀진 주식 시세는 별도 파일에 저장하여 향후에 다시 사용합니다. 저장하는 방법은 json 형태로 해도 되고, cvs 형태로 할 수도 있습니다.

소스코드는 git hub에 올려 놓았습니다.

github.com/multizone-quant/system-trading/blob/master/day-bong-list-soup.py

multizone-quant/system-trading

logics for system trading. Contribute to multizone-quant/system-trading development by creating an account on GitHub.

github.com

'시스템트레이딩' 카테고리의 다른 글

차트 그릴 때 진입 위치를 표시하는 방법 (2)	2020.07.22
웹크롤링으로 관리종목, 거래중지 종목 구하기 (1)	2020.06.05
[파이썬] 요일 찾기에서 주말 건너뛰기 (0)	2020.05.30
[파이썬] Dart 공시정보 API를 이용한 실시간 공시정보 활용 (2)	2020.05.24
웹크롤링 네이버 주식 오늘의 상승종목 (1)	2020.05.23

설정

,

트랙백

웹크롤링 네이버 주식 오늘의 상승종목

시스템트레이딩 2020. 5. 23. 02:05

시스템 트레이딩을 위하여 필요한 정보를 모아보도록 하겠습니다.

이번에 개발할 로직은 코스닥에서 상승 추세 종목 찾아서 매매하기입니다.

이를 위하여 오늘 상승한 종목을 구해야합니다.

이베스트 xing api에서는 전 종목 일봉 데이터를 얻을 수는 있지만 시간이 많이 걸린다고 합니다.

네이버에 있는 주식 관련 정보 중 상승종목을 보여주는 페이지가 있습니다. 제가 필요한 정보가 바로 이겁니다.

화면에 보여주는 정보는 최대 7개를 설정할 수 있습니다. 제가 설정한 정보는 거래량,시가,고가,저가,시가총액,per,poe 입니다. 이를 바탕으로 코딩을 했습니다. 혹시라도 다른 정보가 필요하다면 필요한 항목을 선택하시고, 아래 title_list의 내용도 함께 변경하시기 바랍니다.

~~~

title_list = ['no', 'name', 'close', 'diff', 'per', 'qty', 'open', 'high', 'low', 'sichong', 'per', 'pbr']

~~~

이제 이 정보를 크롤링을 해서 파일에 저장한 후 사용을 하면 되겠죠. 오랜만에 크롤링을 해 봅니다.

특정 페이지를 크롤링을 하기 위해서는 크롬에서 개발자모드로 들어가서 해당 페이지의 html 구조를 파악해야 합니다. 다행히 이 페이지는 table 형태로 구성이 되어 있어서 크롤링하는데 문제가 없습니다.

오랜만에 사용하는 package라 구글링으로 사용법을 찾아보면서 코딩을 했습니다.
urllib로 해당 페이지 내용을 읽어오고, BeautifulSoup으로 html 문서 파싱을 하면 됩니다.

화면에 보이는 그대로 html 문서가 구성되어 있기 때문에 중간에 공백도 있고 줄도 있습니다. 이런 부분들은 제거하고 주식 정보만 뽑는 코드는 다음과 같습니다.

첫 글짜가 숫자인 경우에 한하여 일련번호를 증가시키면서 해당하는 종목 정보를 저장합니다. 첫 글짜가 숫자가 아닌 경우에는 except가 발생합니다. 이런 경우에는 그냥 무시하시면 됩니다.

그리고 크롤링한 결과 날짜별로 이름을 붙여서 저장하는 것으로 마무리합니다.

장이 끝나면 이 프로그램 한번 돌려서 오늘 상승한 종목을 저장해 놓은 후 다음 날 장 시작하기전에 투자 검토 대상을 뽑은 후 조건을 만족하면 자동 매수를 하면 될 것 같습니다.

해당 코드는 아래 github에 올려놓았습니다.

https://github.com/multizone-quant/system-trading/blob/master/ascending-stock-list.py

'시스템트레이딩' 카테고리의 다른 글

차트 그릴 때 진입 위치를 표시하는 방법 (2)	2020.07.22
웹크롤링으로 관리종목, 거래중지 종목 구하기 (1)	2020.06.05
[파이썬] 요일 찾기에서 주말 건너뛰기 (0)	2020.05.30
[파이썬] Dart 공시정보 API를 이용한 실시간 공시정보 활용 (2)	2020.05.24
웹크롤링 네이버 주식 상장기업 주가 (0)	2020.05.23

설정

,

		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

money-expert

검색결과 리스트

웹크롤링에 해당되는 글 4건

글

웹크롤링 네이버 주식 상장기업 주가(셀레나웹드라이버 이용)(2)

설정

트랙백

댓글

글

웹크롤링으로 관리종목, 거래중지 종목 구하기

'시스템트레이딩' 카테고리의 다른 글

설정

트랙백

댓글

글

웹크롤링 네이버 주식 상장기업 주가

'시스템트레이딩' 카테고리의 다른 글

설정

트랙백

댓글

글

웹크롤링 네이버 주식 오늘의 상승종목

'시스템트레이딩' 카테고리의 다른 글

설정

트랙백

댓글

사이드 메뉴

CATEGORY

CALENDAR

COUNTER

RECENT POSTS

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역