Desarrollado por | Fundación de software Apache |
---|---|
Primera versión | 21 de septiembre de 2014 |
Última versión | 1.4.7 (diciembre de 2017) |
Depositar | https://gitbox.apache.org/repos/asf?p=sqoop.git |
Escrito en | Java |
Medio ambiente | Máquina virtual de Java |
Licencia | Licencia de Apache versión 2.0 |
Sitio web | https://sqoop.apache.org/ |
Sqoop es una interfaz de línea de comandos de la aplicación para transferir datos entre bases de datos relacionales y Hadoop . Admite la carga diferencial de una sola tabla o consulta SQL , así como tareas guardadas que se pueden ejecutar varias veces para importar actualizaciones realizadas a una base de datos desde la última importación. Las importaciones también se pueden utilizar para completar tablas en Hive o HBase . Las exportaciones se pueden utilizar para colocar datos de Hadoop en una base de datos relacional. El nombre Sqoop es una palabra compuesta por sql y hadoop.marzo de 2012 Sqoop se ha convertido en un proyecto Apache de alto nivel .
Informatica proporciona un conector para Sqoop a partir de la versión 10.1. Informatica admite acciones de importación y exportación, que a menudo se utilizan para la integración de datos en Hadoop.
Pentaho también ha proporcionado conectores de código abierto basados en Sqoop ( Sqoop Importat y Sqoop à Export ) en su ETL desde la versión 4.5 del software. Microsoft usa un conector basado en Sqoop para ayudar a transferir datos desde Microsoft SQL Server a las bases de datos de Hadoop. Couchbase, Inc. también proporciona un conector Couchbase Server-Hadoop a través de Sqoop.
En 2015, Ralph Kimball describió Sqoop de la siguiente manera, bajo el título El futuro de ETL : “ Deben producirse varios cambios importantes en el entorno ETL. En primer lugar, las fuentes de datos de fuentes originales deben admitir anchos de banda enormes, al menos gigabytes por segundo. Obtenga más información sobre la carga de datos de Sqoop en Hadoop. Si estas palabras no significan nada para ti, ¡tienes que leer un poco! Comience con Wikipedia. " ( " Deben producirse varios cambios importantes en el entorno ETL. Primero, el flujo de datos de las fuentes originales debe admitir un ancho de banda enorme, al menos varios gigabytes por segundo. Pregunte acerca de los datos de carga Sqoop en Hadoop. Si estas palabras no suena un timbre, ¡tiene algo que leer! Empiece con Wikipedia ” ).