本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析。文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考。
入门爬虫一个月,所以对每一个网站都使用Xpath、BeautifulSoup、正则三种方法分别爬取,用于练习巩固。数据来源如下:
#有一些二手房信息缺少部分信息,如:缺少装修信息,或者缺少楼层信息,这时候需要加个判断,不然爬取就会中断。
time.sleep(3)#设置爬取频率,一开始我就是爬取的太猛,导致网页需要验证。
a、有一些房屋缺少部分信息,如缺少装修信息,这个时候需要加一个判断,如果不加判断,爬取就会自动终止。我在这里跌了很大的坑。
b、Data.csv知识点存储文件路径默认是工作目录,关于工作目录传送门:python中如何查看工作目录
c、爬虫打印的是字典形式,每一个房屋信息都是一个字典,由于对Python中excel相关库是我知识盲点,所以爬虫的时候将字典循环直接写入CSV。
d、很多初学者对于Address这种不知道如何处理,这里强调一下BeautifulSoup中tents的用法,亲身体会,我在这里花了好多时间才找到答案。
#在爬取的时候加入了判断,所以不知道爬取的数据中是否存在缺失值,这里检查一下
##这里需要注意,有一些房屋没有客厅如:1室1卫这时候需要单独处理,还有一些没有厕所信息。
DATA$Toilet###如图六,将Halls中带有汉字去掉,因为有一些房屋信息没有客厅,如:1室1厅,在分成卧室和客厅时,会将卫生间分到客厅一列。
主要思路是探究单个自变量对因变量的影响,对房价的影响因素进行模拟探究之前,首先对各变量进行描述性分析,已初步判断房价的影响因素。这里探究各个因素对总价影响。
客厅数为3时候总价最高,客厅数为0、1和2的时候总价低于客厅数3和客厅数4。
今天的文章分享到此结束,希望本次分享对正在学习Python的你有所帮助,文章部分素材来源网络,如有侵权,请联系删除。
转载请注明出处。