爬虫项目3 – 股票数据爬取

1265-张同学

发表文章数:58

首页 » 算法 » 正文

步骤

  1. 爬取股票名和股票列表,使用gucheng网进行爬取,网址:
    https://hq.gucheng.com/gpdmylb.html
import requests
import re
import csv
from bs4 import BeautifulSoup
import pandas as pd

def parse_html(url,headers):
    try:
        res = requests.get(url=url,headers=headers)
        return res.content.decode('utf-8')
    except:
        return None

def get_stock_list(url,headers):
    html = parse_html(url,headers)
    soup = BeautifulSoup(html,'lxml')
    ll = soup.find_all('a')
    #print(ll)
    res = []
    for item in ll:
        try:
            pattern = re.compile('<a href="https://hq.gucheng.com/(.*?)/">(.*?)/(.*?</a>',re.S) 
            res.append(re.findall(pattern,str(item))[0])
        except:
            continue
    return res

def main():
    url = 'https://hq.gucheng.com/gpdmylb.html'
    headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
    stocks = get_stock_list(url,headers)
    print(stocks)
    for item in stocks: # 将股票名,股票代码保存到本地
        with open('./stocklist.csv','a',encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerow(item)

if __name__ == '__main__':
    main()
  1. 加载已经保存的股票列表,进行历史数据爬取,本来想进行网页爬取,后来发现使用selenium进行模拟操作会更简单一点,因此使用如下方法:
    • 首先进入http://quotes.money.163.com/trade/lsjysj_000002.html?year=2010&season=1。加粗部分为股票代码
    • 接着尝试使用selenium模块进行模拟的下载操作:点击“下载数据” -> 输入“起始日期” -> 输入“截止日期” -> 点击“下载”,如下:
      爬虫项目3 - 股票数据爬取
    • 最后将数据存入本地,因为总股数在3600股左右,所以选择手动分批次下载,这部分代码可以调整。
def load_csv(start_ind,end_ind):
	# start_ind: start stock index
	# end_ind: end stock index
    stocklist = pd.read_csv('./stocklist.csv')
    stocklist['Code']=stocklist['Code'].apply(lambda x: x[2:])
    return stocklist['Code'].tolist()[start_ind:end_ind]

def get_stock_history_data(stocklist, start_date='2010-01-01',end_date='2020-12-01'):
	# take all data of stocks from 2010-01-01 to 2020-12-01 can adjust according to demand
    if not stocklist:
        return

    bro = webdriver.Chrome()
    bro.maximize_window()
    time.sleep(1)

    for stock in stocklist:
        try:
            bro.get("http://quotes.money.163.com/trade/lsjysj_{}.html?".format(stock))
            time.sleep(random.choice([1, 2]))
            bro.find_element_by_id("downloadData").click()
            time.sleep(random.choice([1, 2]))
            bro.find_element_by_name('date_start_value').clear()
            bro.find_element_by_name('date_start_value').send_keys(start_date)
            time.sleep(random.choice([1, 2]))
            bro.find_element_by_name('date_end_value').clear()
            bro.find_element_by_name('date_end_value').send_keys(end_date)
            time.sleep(random.choice([1, 2]))
            bro.find_element_by_css_selector('a.blue_btn.submit').click()
            # bro.find_element_by_xpath("//*[@action name='tradeData']/div[3]/a").click()
            time.sleep(10)
        except:
            print("Stock {} don't exist".format(stock))

def main():
    stocks = load_csv(200,500)
    #print(stocks)
    get_stock_history_data(stocks)

if __name__ == '__main__':
    main()
  1. 至此全部股票数据2010-2020的数据就已下载完毕,可以开始进行下一步了。这里计划将所下载的csv存入数据库进行整合(in progress)。

未经允许不得转载:作者:1265-张同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《爬虫项目3 – 股票数据爬取》 发布于2020-12-08

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录