Fwd: 关于爬虫技术法律问题咨询
Hi 王先生, 我们查询了相关法律法规,对爬虫技术的运用有如下建议: 首先,我们认为,爬虫本身不为法律所禁止,可采集公开信息,例如对外提供公开查询服务的网站的公开信息(如公检法机关、政府部门、事业单位的官网等),或没有设置反爬声明或采取反爬技术措施的各类商业网站,一般不限制爬取数据。但以上并不意味着爬虫技术可以任意爬取相关信息,以下信息将可能涉嫌非法爬取,建议您在爬取过程中需要格外注意: (1)当某网站声明了robots协议——即网络爬虫排除标准时,数据爬取方应当对robots.txt中所记载的禁...
我的第一个开源框架,webspider
最近要写一个爬虫,本来打算用Python来写的,但是好久没用python写过东西了,加上最近的.NET项目都在LINUX上运行了,所以,打算用.NET来写,网上搜索了很多.NET的爬虫框架,运行起都或多或少有点问题,不那么顺手,就自己写了一个,很简单的。 开源地址:https://github.com/BruceProject/WebSpider My first open source project,WebSpider ! welcome to commit ,issue 我的第一个开源项目,网站蜘蛛!欢迎提问,改进! How to use? 怎么使用? #demo static void Main(string[] args) { C...
[转]用python爬取指定用户微博图片及内容,并进行微博分类及使用习惯分析
虽然我是不用微博的,但由于某种原因,手机端的微博会时不时地推送几条我必须看的消息过来。微博被看久了,前几天又看到 语亮 - 简书 一年前的的微博爬虫,就有了对某人微博深入挖掘的想法。 之前语亮的爬虫不能抓取用户一条微博的多张图片,一年后微博界面也发生了一些变化,决定还是参考语亮爬取手机端界面的方法更新下代码,同时加上一点小小的数据分析。 主要想法是抓取指定用户的全部微博原创内容和全部原创图片保存到本地,然后对原创微博进行分类,并统计用户最爱使用的表情、最常使用的词语和微博中提到的...