Scrapy

Información

Última versión	1.6.0 (30 de enero de 2019)
Depositar	github.com/scrapy/scrapy
Seguro de calidad	Integración continua
Escrito en	Pitón
Sistema de explotación	Microsoft Windows , Linux y macOS
Medio ambiente	Multiplataforma
Idiomas	inglés
Tipo	Robot de indexación
Licencia	Licencia propietaria de Scrapy
Sitio web	www.scrapy.org

Scrapy es un marco de código abierto que permite la creación de rastreadores . Desarrollado en Python , tiene una comunidad sólida que ofrece muchos módulos adicionales. La primera versión estable se lanzó enseptiembre de 2009. Desde entonces, el equipo de desarrollo publica regularmente nuevas versiones para enriquecer el marco en funcionalidad. El objetivo principal es obtener una API estable para la versión 1.0. El marco tiene una comunidad activa y varias empresas proporcionan apoyo comercial.

El marco es compatible con Python 2.7 y Python 3.6 o superior, en la mayoría de las plataformas.

Caracteristicas

El equipo responsable del desarrollo del framework le confiere varias características:

Simple : no se necesitan conocimientos avanzados en Python para usar Scrapy
Productivo : la huella de código a generar es muy corta, la mayoría de las operaciones son manejadas por Scrapy
Rápido : el marco es rápido, con gestión de acciones en particular
Extensible : cada robot se puede personalizar mediante extensiones, modificando su comportamiento
Portátil : los robots Scrapy son compatibles con Linux , Windows , Mac y BSD
Fuente abierta
Robusto , gracias a una batería de pruebas realizadas tanto por desarrolladores como por la comunidad

Ejemplo de robot

El sitio web del proyecto ofrece un tutorial detallado sobre el uso de Scrapy. Este curso ofrece varios ejemplos, como el de enfrente, extrayendo ciertos enlaces presentes en varias páginas web.

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') items = [] for site in sites: item = DmozItem() item['title'] = site.select('a/text()').extract() item['link'] = site.select('a/@href').extract() item['desc'] = site.select('text()').extract() items.append(item) return items

Notas y referencias

¡La versión candidata a Scrapy 0.7 está disponible! , consultado el 17 de agosto de 2012
Versioning and API Stability , consultado el 17 de agosto de 2012
Soporte comercial de Scrapy , consultado el 29 de agosto de 2012
Descripción general de Scrapy , consultado el 17 de agosto de 2012
Scrapy de un vistazo