StormCrawler

StormCrawler

StormCrawler adalah SDK sumber terbuka untuk membina crawler web dengan Apache Storm.Projek ini berada di bawah lesen Apache v2 dan terdiri daripada koleksi sumber dan komponen boleh digunakan semula, yang ditulis kebanyakannya di Jawa.Matlamat StormCrawler adalah untuk membantu membina perayap web yang: mudah dimensi rendah yang mudah diluaskan mudah untuk meluaskan sopan namun efisien StormCrawler adalah perpustakaan dan pengumpulan sumber yang pemaju dapat memanfaatkan untuk membina crawler mereka sendiri.Berita baiknya ialah berbuat demikian boleh jadi mudah.Seringkali, apa yang perlu anda lakukan ialah mengisytiharkan perayap badai sebagai kebergantungan Maven, tulis kelas Topologi anda sendiri (tip: anda boleh memperluaskan ConfigurableTopology), guna semula komponen yang disediakan oleh projek itu dan mungkin menulis beberapa jenis adatuntuk sos rahsia anda sendiri.Sedikit tweaking ke Konfigurasi dan di luar anda pergi ... Selain daripada komponen teras, kami menyediakan beberapa sumber luaran yang anda boleh guna semula dalam projek anda, seperti contohnya spout dan baut kami untuk ElasticSearch atau ParserBolt yang menggunakan Apache Tikauntuk menghuraikan pelbagai format dokumen.StormCrawler sangat sesuai untuk menggunakan kes-kes di mana URL untuk mengambil dan mengurai datang sebagai aliran tetapi juga penyelesaian yang sesuai untuk merangkak rekursif berskala besar, terutamanya di mana latensi rendah diperlukan.Projek ini digunakan dalam pengeluaran oleh beberapa syarikat dan aktif dibangunkan dan dikekalkan.
stormcrawler

Kategori

Alternatif untuk StormCrawler untuk Web dengan lesen percuma