数据将是比石油还珍贵的资源,谁拥有最快获取数据,处理数据,分享数据,产生数据的能力,谁就会胜出。
在当下这个数据已经成为决策核心的大数据时代,越来越多的公司和个人离不开大数据。数据采集和分析能力正在成为职场的必备技能。
今天小编就以国内知名的ForeSpider爬虫软件为例,来为大家盘点一下爬虫软件能够采集哪些数据。
ForeSpider数据采集系统,一款通用性的可视化+开发型爬虫软件,可以采集互联网上几乎100%的公开数据。ForeSpider既能进行可视化的数据提取,又支持正则表达式操作,不管您是否有编程基础,都可以使用采集网站或/app中的数据。
l 国内网站
1.新闻类网站
实时采集全网所有的新闻资讯内容和政府公告数据:
①媒体门户网站
人民网、央视网、新华网、财经网、东方网、大众网、华声在线、光明网、中国科技网、凤凰网、澎湃新闻、搜狐网、中国网、央视新闻中心、大河网等;
②自媒体平台
今日头条、百家号、一点资讯、网易、腾讯新闻、新浪新闻、钛媒体、CSDN、趣头条、简书、世界经纪人、ChinaUnix、思否等;
③垂直新闻媒体网站
汽车之家、东方财富网、IT之家、知音网、健康报网、梅花网等、金融界、中国机械网、界面等;
④各级政府机构门户网站
财政部、自然资源部、证监会、中国政府采购网、国家法律法规、药监局、银监会、国家标准网、海洋局、文物局等;
2.企业类网站
实时采集全网所有的企业黄页网站数据:
顺企网、慧聪网、1688、中国黄页网、马可波罗、黄页88、免费黄页网等。
3.招投标类网站
实时采集全网招投标网站数据及企业官网招投标数据:
①招投标网
中国政府采购网、贵州省招标投标网、安徽招标网、合肥招标投标网、中国采购招标网等;
②各地区公共资源交易中心
广州公共资源交易网、甘肃省公共资源交易网、贵州公共资源交易中心、云南公共资源交易中心、四川公共资源交易中心、重庆公共资源交易中心、西藏公共资源交易中心、广东公共资源交易中心、广西公共资源交易中心、海南公共资源交易中心、湖北公共资源交易中心、湖南公共资源交易中心、河南公共资源交易中心、江西公共资源交易中心、山东公共资源交易中心、江苏公共资源交易中心、安徽公共资源交易中心、浙江公共资源交易中心、福建公共资源交易中心、上海公共资源交易中心、北京公共资源交易中心、天津公共资源交易中心、河北公共资源交易中心、雄安公共资源交易中心、山西公共资源交易中心、内蒙古公共资源交易中心、宁夏公共资源交易中心、新疆公共资源交易中心、兵团公共资源交易中心、青海公共资源交易中心、陕西公共资源交易中心、甘肃公共资源交易中心、辽宁公共资源交易中心、吉林公共资源交易中心、黑龙江公共资源交易中心等;
4.金融类网站
抓取网上金融类网站的公开数据:
东方财富网、金融界、证券之星、中财网行情中心、中国证券业协会网、同花顺、好买基金网、中证网、华夏基金、证监会、中国金融期货交易所、上海期货交易所。
5.社交类网站
实时爬取全网全渠道社交媒体及各类垂直行业论坛贴吧数据,可满足多种数据采集场景。可抓取登录、滚动、搜索、点击等多种交互后展现的数据,具体包括账号主页文章/博文/帖子、搜索关键词后得到的文章/博文/帖子、文章/博文评论等:
微博、知乎、豆瓣、抖音、小红书、B站、火山、微信公众、百度贴吧等。
6.电商类网站
批量采集全网主流电商平台及官方/第三方电商数据分析平台数据:
淘宝、天猫、京东、拼多多、苏宁易购、唯品会、当当网、国美、阿里巴巴、聚美优品、贝贝网、寺库网、车厘子鲜果网、食行生鲜、网易严选、卷皮网、中粮我买网、汽车之家、亚马逊(中国)、eBay、AliExpress等。
可采集直接可见或登录后可见的电商网站数据,字段包括:商品类目、标题、URL、价格(挂牌价与到手价)、销量、交易额、库存、评价、图片、访问量、发货地、促销活动、所在店铺、店铺等级等。
7.房产类网站
爬取全国各级市区县的房地产数据(包括房产基础数据、房产租售交易数据、土地交易数据),及各类综合房产信息网站:
中原房产、搜房网、房天下、房多多、赶集网、房星网、Q房网、合房网、乐有家、21世纪房产等、各省市房管局网站和各省市土地招拍挂网站等。
8.在线服务类网站
美团、大众点评、百度糯米、饿了么、携程旅行网、同程旅游、驴妈妈旅游、去哪儿网、飞猪、途牛旅游、艺龙旅行网、小猪短租、蚂蚁短租、马蜂窝、大麦网、永乐票务、时光网、猫眼、淘票票、土巴兔、齐家网、懒人家政、阿姨来了、58到家、好大夫在线、微医、腾讯课堂、淘宝教育等。
l 境外网站
ForeSpider数据采集分析引擎可以采集境外的各类网站数据,通过配置境外代理IP或VPN,轻松采集境外电商、新闻、社交、地图、企业官网、政府媒体等各行业网站上的公开数据。
1.电商网站
天猫国际、海囤全球、网易考拉、苏宁海外购、亚马逊海外购、聚美极速免税店、唯品国际、宝贝格子、速卖通、兰亭集势、亚马逊(Amazon)、易贝(eBay)、AliExpress、阿里巴巴国际站、Rakuten、NetFlix、Best Buy、新蛋网(Newegg)、西尔斯(Sears)、Overstock、特易购(Tesco)、La Redoute、Play.com、Ssense、Gmarket、Etsy等。
2.新闻网站
雅虎新闻 (Yahoo! News)、赫芬顿邮报 (HuffingtonPost)、美国有线电视新闻网 (CNN)、谷歌新闻 (Google News)、纽约时报 (New York Times)、福克斯新闻频道(Fox News) 、美国全国广播公司新闻(NBC News)、洛杉矶时报(Los Angeles Times )、朝日新闻(Asahi Shimbun) 等。
3.社交网站
脸书(Facebook)、推特(Twitter)、领英(LinkedIn)、Pinterest、Google+、pixiv、Flickr、研究之门(ResearchGate)、Badoo、Seesaa、Scribd、GREE、LiveJournal、Lamebook等。
4.地图网站
采集外国地图类网站上搜索出来的店铺、企业等数据:
谷歌地图(Google Maps) 、Bing地图 (Bing Maps)、雅虎地图(Yahoo! Maps) 、MapQuest等。
5.学术网站
抓取国外学术类期刊、研究院、数据库等网站中的学术数据:
柳叶刀(The Lancet)、研究之门(ResearchGate)、医景网、 CA Cancer J Clin 、美国西南研究院(Southwest Research Institute)、美国化学学会(ACS)、PubMed、生物化学杂志(The Journal of Biochemistry)、伊朗生物技术期刊(Iranian Journal of Biotechnology)、国际地理学会(IGU)、基因库(GenBank);
6.政府媒体网站
采集各国政府媒体网站及政府网站数据:
新导报(xindb)、白俄罗斯电视台(tvr.by) 欧洲华人报、德国新资讯(deumedia)、美联社(ap.org)、英国卫报(guardian)、美国财富杂志(fortune)、韩国中央日报(joins)等。
l 国内外APP
ForeSpider爬虫软件不仅可以采集网页上的公开数据,还可以采集国内外APP上的公开数据。
1.电商APP
淘宝、天猫、京东、苏宁、唯品会、阿里巴巴、拼多多、美团、饿了么、大众点评、Depop、ASOS、Wish、Sockock、Groupon、亚马逊、eBay等。
采集内容:可采集直接可见或登录后可见的电商APP数据,字段包括商品类目、标题、URL、价格(挂牌价与到手价)、销量、交易额、库存、评价、图片、访问量、发货地、促销活动、所在店铺、店铺等级等。
2.新闻APP
今日头条、一点资讯、搜狐、新浪、腾讯、新京报、人民日报、澎湃新闻、网易、凤凰新闻、中央新闻、环球TIME、天天快报、经济学人(The Economist)、纽约时报、南华早报(SCMP)、BBC News、雅虎 (News Digest)、CNN、韩联社等
采集内容:可抓取公开或登录后可见的新闻APP中的数据,例如新闻标题、新闻发布时间、新闻来源、新闻正文、新闻评论等。
3.社交媒体APP
微博、小红书、抖音、火山、B站、Facebook、YouTube、PAGO、Yubo、Beeto等。
采集内容:登录/滚动/搜索/点击等多种交互后展现的数据均可采集,具体包括账号主页文章/博文、搜索关键词后得到的文章/博文、文章/博文评论、图片、段视频、点赞量、转发量等。
4.地图APP
高德地图、百度地图、腾讯地图、谷歌地图、谷歌地图(Google Maps) 、Bing地图 (Bing Maps)、雅虎地图(Yahoo! Maps)等
采集内容:可批量抓取在各地图APP中搜索关键词出来的商铺、企业数据,例如商铺名称、地址、电话、营业时间、评分、评论、口碑等。
*以上网站仅为展示ForeSpider数据采集分析引擎采集范围及能力,请您在使用中,严格按照国家法律和对方网站的要求进行合法的数据爬取,不要将数据用于违法用途。
l 前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!