分类

链接

2017 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  

近期文章

热门标签

新人福利,免费薅羊毛

现在位置:    首页 > .NET > 正文
共享办公室出租
我的第一个开源框架,webspider
.NET 暂无评论 阅读(672)

最近要写一个爬虫,本来打算用Python来写的,但是好久没用python写过东西了,加上最近的.NET项目都在LINUX上运行了,所以,打算用.NET来写,网上搜索了很多.NET的爬虫框架,运行起都或多或少有点问题,不那么顺手,就自己写了一个,很简单的。

开源地址:https://github.com/BruceProject/WebSpider

 

My first open source project,WebSpider ! welcome to commit ,issue

我的第一个开源项目,网站蜘蛛!欢迎提问,改进!

How to use?

怎么使用?

#demo

	static void Main(string[] args)
    {
        CrawlerConfig config = new CrawlerConfig();
        config.Encoding = Encoding.GetEncoding("GB2312");

        Crawler spider = new Crawler(config,"http://www.baidu.com/s?wd=webspider");
        spider.CanCrawlEvent += Spider_CanCrawlEvent;
        spider.CanCrawLinksEvent += Spider_CanCrawLinksEvent;
        spider.PageCrawlCompletedEvent += Spider_PageCrawlCompletedEvent;
        spider.AllCrawlCompletedEvent += Spider_AllCrawlCompletedEvent;
        
        spider.Start();

        Console.Read();

    }

    //All url crawl completed
    //所有URL执行结束
    private static void Spider_AllCrawlCompletedEvent(object sender, AllCrawlCompletedArgs e)
    {
        Console.WriteLine("completed");
    }

    //a url crawl completed,Support csquery what's a framwork of operating dom like jquery
    //当一个Url抓取完成时执行,支持csquery,一个可以像JQUERY一样操作dom的框架
    private static void Spider_PageCrawlCompletedEvent(object sender, PageCrawlCompletedArgs e)
    {
        var title = e.CQDocument.Select(".art_h1").Text();
    }

    private static bool Spider_CanCrawLinksEvent(string url)
    {
        return true;
    }

  
    private static bool Spider_CanCrawlEvent(string url)
    {
        return true;
    }
    
    
    #AND other
    if u have any questioin ,welcome to issue.

============ 欢迎各位老板打赏~ ===========

本文版权归Bruce's Blog所有,转载引用请完整注明以下信息:
本文作者:Bruce
本文地址:我的第一个开源框架,webspider | Bruce's Blog

发表评论

留言无头像?