房产

北京二手房有多贵?Python爬取赶集网得到这样的数据附完整代码

字号+ 作者:lobtom 来源:未知 2018-11-12 16:30 我要评论( )

本文主要分为两部分:Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析。文章思路清晰,代码详细,特别适合刚刚接触PythonR的同学学习参考。 入门爬虫一个月,

  本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析。文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考。

  入门爬虫一个月,所以对每一个网站都使用Xpath、BeautifulSoup、正则三种方法分别爬取,用于练习巩固。数据来源如下:

  #有一些二手房信息缺少部分信息,如:缺少装修信息,或者缺少楼层信息,这时候需要加个判断,不然爬取就会中断。

  time.sleep(3)#设置爬取频率,一开始我就是爬取的太猛,导致网页需要验证。

  a、有一些房屋缺少部分信息,如缺少装修信息,这个时候需要加一个判断,如果不加判断,爬取就会自动终止。我在这里跌了很大的坑。

  b、Data.csv知识点存储文件路径默认是工作目录,关于工作目录传送门:python中如何查看工作目录

  c、爬虫打印的是字典形式,每一个房屋信息都是一个字典,由于对Python中excel相关库是我知识盲点,所以爬虫的时候将字典循环直接写入CSV。

  d、很多初学者对于Address这种不知道如何处理,这里强调一下BeautifulSoup中tents的用法,亲身体会,我在这里花了好多时间才找到答案。

  #在爬取的时候加入了判断,所以不知道爬取的数据中是否存在缺失值,这里检查一下

  ##这里需要注意,有一些房屋没有客厅如:1室1卫这时候需要单独处理,还有一些没有厕所信息。

  DATA$Toilet###如图六,将Halls中带有汉字去掉,因为有一些房屋信息没有客厅,如:1室1厅,在分成卧室和客厅时,会将卫生间分到客厅一列。

  主要思路是探究单个自变量对因变量的影响,对房价的影响因素进行模拟探究之前,首先对各变量进行描述性分析,已初步判断房价的影响因素。这里探究各个因素对总价影响。

  客厅数为3时候总价最高,客厅数为0、1和2的时候总价低于客厅数3和客厅数4。

  今天的文章分享到此结束,希望本次分享对正在学习Python的你有所帮助,文章部分素材来源网络,如有侵权,请联系删除。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 河北二手房市场调查之保定篇|购房者抛售房子各区域房价不断回调

    河北二手房市场调查之保定篇|购房者抛售房子各区域房价不断回调

    2018-11-12 16:31

  • 房价将迎拐点赶集网逆市热推精品二手房(图)

    房价将迎拐点赶集网逆市热推精品二手房(图)

    2018-11-12 16:30

  • 赶集网、58同城假房源泛滥被指为保利润放任诈骗信息

    赶集网、58同城假房源泛滥被指为保利润放任诈骗信息

    2018-11-12 14:46

  • 成都58同城、安居客、赶集网战略同盟发布会即将隆重开幕

    成都58同城、安居客、赶集网战略同盟发布会即将隆重开幕

    2018-11-12 14:46

网友点评