[idea] Custom Resource Definitation of distribured spider in Kubernetes #29

gaocegege · 2018-05-10T06:23:09Z

利用 Kubernetes，应该可以很轻易地启动一个分布式爬虫任务。而如果将其实现成 crd 的方式，会变得非常 Kubernetes native，有更好的 scalability。可以基于 https://github.com/rmax/scrapy-redis 去尝试

skillset: 熟悉 Kubernetes，熟悉 scrapy，了解 redis

gaocegege · 2018-05-10T06:23:52Z

Crawler as a service 🤔

xplorld · 2018-07-30T06:17:48Z

这样的 craweler service 允许用户不写代码仅仅写yaml就能开启分布式爬虫任务了？比如在yaml中可以指定transformation规则？

xplorld · 2018-07-30T07:01:55Z

🤔

gaocegege · 2018-07-30T08:45:39Z

yaml 里制定规则我觉得不太可行，毕竟不是图灵完备

gaocegege added exp/intermediate kind/idea size/large status/to-be-claimed labels May 10, 2018

Provide feedback