Skip to content

Latest commit

 

History

History
128 lines (91 loc) · 6.72 KB

README.md

File metadata and controls

128 lines (91 loc) · 6.72 KB

README

提交物说明

文件 说明
weibo_crawl.py 爬取微博数据的爬虫代码文件
weibo_check.py 爬取并验证微博数据的代码文件
table.py 爬取新浪财经表格数据的爬虫文件
table_check.py 爬取并验证新浪财经表格数据的代码文件
weibo 此文件夹中存储爬取的微博数据,子文件分别对应某个用户
weibo_log.txt 此文件存储验证微博数据时产生的错误信息(不存在则因为无错误信息)
stock 此文件存储爬取的新浪财经上的数据
stock/上市公司业绩公告.csv 存储爬取的新浪财经上上市公司业绩公告expected result
stock/融资融券数据.csv 存储爬取的新浪财经上融资融券数据expected result
stock/基金历史信息.csv 存储爬取的新浪财经上基金的历史信息 expected result
stock/上市公司业绩公告log.txt 此文件存储验证新浪财经表格数据时产生的错误信息(不存在则因为无错误信息)

运行环境

  • Python 3.6

  • Pycharm 2018.2.1

  • JRE: 1.8.0_152-release-1248-b8 amd64

  • JVM: OpenJDK 64-Bit Server VM by JetBrain s.r.o

代码说明

  • 验证器采用边爬取数据边对比expected_result的方式进行验证,所以不会产生actual_result的文件,而是产生对比结果的log文件。
  • 微博数据的爬取需要添加cookie信息。代码中的cookie信息为组员的微博cookie信息。weibo_crawl.py爬取了内容数据和文件数据。
  • 新浪财经表格为动态渲染。table.py爬取了表格数据。

数据说明

微博数据

数据 说明
微博id 某个微博的id(来自新浪微博url)
微博正文 微博的正文内容
原始图片 原创微博的图片,数组形式,每一个元素包含了图片的url,类型和大小。
被转发微博原始图片 转发的微博的图片,数组形式,每一个元素包含了图片的url,类型和大小
是否为原创微博 True表示是原创微博,False表示不是原创微博
发布位置 微博发布位置
发布时间 微博发布时间
发布工具 发送设备的说明
点赞数 微博的赞数
转发数 微博的转发数
评论数 微博的评论数

其中,微博id,微博正文,原始图片,被转发微博原始图片,是否为原创微博,发布位置,发布时间,发布工具为验证器验证的对象。

新浪财经基金数据

爬取的全部基金的名称和代码:

http://vip.stock.finance.sina.com.cn/fund_center/index.html#jzkfall

后通过网页上基金的链接爬取基金的历史信息:

数据 说明
日期 2019/02/19到2019/12/24期间的数据
单位净值 某日零时统计的单位净值信息
累计净值 某日零时统计的累计净值信息
基金代码 基金代码
基金名称 基金名称

验证:

验证时没有发现问题

新浪财经每日融资融券数据

例如2019-12-12日,新浪财经的融资融券数据记录页:

http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/rzrq/index.phtml?tradedate=2019-12-12

1577898571806

数据 说明
日期 2011/06/01到2019/12/29期间的每日数据
序号 某股票当日记录序号
股票代码 某日零时统计的累计净值信息
股票名称 某股票的股票名称
融资-余额(元) 融资栏下的余额(元)
融资-买入额(元) 融资栏下的买入额(元)
融资-偿还额(元) 融资栏下的偿还额(元)
融券-余量金额(元) 融券栏下的余量金额(元)
融券余量(股) 融券栏下的余量(股)
融券-卖出股(股) 融券栏下的卖出股(股)
融券-偿还量(股) 融券栏下的偿还量(股)
融券-融券金额(元) 融券栏下的融券金额(元)

验证:

验证时没有发现问题

新浪财经上市公司业绩公告

如下链接,为某一季度上市公司的公告列表

http://finance.sina.com.cn/realstock/income_statement/2016-03-31/issued_pdate_ac_10.html

1577898953970

其中最后一栏为公告pdf下载链接,通过url可获得对应的文件元数据。

表格包含的数据如下:

股票代码 股票名称 披露日期
每股收益(元) 营业收入(万元) 营业收入同比(%)
净利润(万元) 净利润同比(%) 每股净资产(元)
净资产收益率(%) 每股现金流(元) 毛利率(%)
分配方案 明细 PDF报告
文件大小 文件类型 文件最后修改时间

Reference

[1]https://github.com/dataabc/weiboSpider