Última versión | 1.6.0 (30 de enero de 2019) |
---|---|
Depositar | github.com/scrapy/scrapy |
Seguro de calidad | Integración continua |
Escrito en | Pitón |
Sistema de explotación | Microsoft Windows , Linux y macOS |
Medio ambiente | Multiplataforma |
Idiomas | inglés |
Tipo | Robot de indexación |
Licencia | Licencia propietaria de Scrapy |
Sitio web | www.scrapy.org |
Scrapy es un marco de código abierto que permite la creación de rastreadores . Desarrollado en Python , tiene una comunidad sólida que ofrece muchos módulos adicionales. La primera versión estable se lanzó enseptiembre de 2009. Desde entonces, el equipo de desarrollo publica regularmente nuevas versiones para enriquecer el marco en funcionalidad. El objetivo principal es obtener una API estable para la versión 1.0. El marco tiene una comunidad activa y varias empresas proporcionan apoyo comercial.
El marco es compatible con Python 2.7 y Python 3.6 o superior, en la mayoría de las plataformas.
El equipo responsable del desarrollo del framework le confiere varias características:
El sitio web del proyecto ofrece un tutorial detallado sobre el uso de Scrapy. Este curso ofrece varios ejemplos, como el de enfrente, extrayendo ciertos enlaces presentes en varias páginas web.
from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') items = [] for site in sites: item = DmozItem() item['title'] = site.select('a/text()').extract() item['link'] = site.select('a/@href').extract() item['desc'] = site.select('text()').extract() items.append(item) return items