Cómo subir datos a Google BigQuery

La traducción del artículo se preparó en vísperas del inicio del curso "Bases de datos no relacionales" .








En este artículo, veremos las opciones para cargar datos en el almacenamiento en la nube de Google BigQuery. Esto incluye formas sencillas de cargar datos desde archivos CSV / JSON y formas de cargar a través de API o extensión.



Con Google BigQuery (GBQ), puede recopilar datos de varias fuentes y analizarlos mediante consultas SQL. Entre las ventajas de GBQ se encuentran la alta velocidad de cálculo incluso para grandes cantidades de datos y el bajo costo.



¿Por qué necesita cargar datos en un solo repositorio? Si desea utilizar análisis de extremo a extremo, generar informes a partir de datos sin procesar y medir la efectividad de su marketing, entonces necesita Google BigQuery.



Si necesita analizar terabytes de datos en segundos, Google BigQuery es la opción más fácil y asequible. Puede obtener más información sobre este servicio viendo un breve video en el canal de YouTube de Google Developers .



Crear un conjunto de datos y una tabla



Antes de cargar cualquier dato, primero debe crear un conjunto de datos y una tabla en Google BigQuery. Para hacer esto, en la página de inicio de BigQuery, seleccione el recurso en el que desea crear un conjunto de datos.





Las imágenes utilizadas en el artículo son proporcionadas por el autor.



Especifique el ID del conjunto de datos en la ventana "Crear conjunto de datos", seleccione la ubicación de procesamiento de datos y establezca el período de almacenamiento predeterminado para la tabla.

Nota: Si elige "Nunca" como la fecha de vencimiento de la tabla, no se definirá ningún almacenamiento físico. Para las tablas temporales, puede especificar el número de días para conservarlas.







Luego crea una tabla en el conjunto de datos.







¡Hecho! Ahora puede comenzar a descargar datos.



Carga de datos mediante Google Sheets (extensión OWOX BI BigQuery Reports).



Si necesita cargar datos de Google Sheets a Google BigQuery, la forma más sencilla de hacerlo es instalar la extensión gratuita OWOX BI BigQuery Reports.



Puede instalar esta extensión directamente desde Google Sheets o desde Chrome Web Store .







Después de instalarlo, aparece un cuadro de diálogo con indicaciones y solicitando permisos.







Ahora es el momento de volver a Google Sheets. Para subir datos a BigQuery, simplemente seleccione Subir datos a BigQuery en el menú Complementos -> Informes de OWOX BI BigQuery.







Especifique el nombre del proyecto, el conjunto de datos y la tabla en el que cargar los datos. Y eso es todo :) Una



ventaja indiscutible de la extensión OWOX BI BigQuery Reports es su facilidad de uso. También puede utilizar la extensión para personalizar los informes programados.



Para generar informes basados ​​en datos sin procesar precisos de todas las fuentes y subirlos automáticamente al repositorio de Google BigQuery, recomendamos utilizar el servicio OWOX BI Pipeline .



Con Pipeline, puede configurar la recopilación automática de datos de servicios publicitarios, sistemas de seguimiento de llamadas y CRM. Esto le permite recuperar rápida y fácilmente conjuntos de datos completos de las fuentes que elija.







Simplemente seleccione las fuentes de datos y permita el acceso; deje el resto a OWOX BI .



Con OWOX BI puede crear informes para cualquier gusto y color, desde ROI, efecto ROPO y análisis de cohortes hasta análisis LTV y RFM.



Cargando datos de archivos CSV



Para cargar datos desde un archivo CSV, seleccione una fuente de datos en la ventana Crear tabla y use la opción Cargar.







Luego seleccione el archivo y su formato.







A continuación, debe definir el destino de los datos especificando el nombre del proyecto y el conjunto de datos.



Nota: En Google BigQuery, puede seleccionar dos tipos de tablas: nativas y externas.









Google BigQuery detectará automáticamente la estructura de la tabla, pero si desea agregar campos manualmente, puede usar la función de edición de texto o el botón + Agregar campo.



Nota: Si desea interferir con el análisis de datos de un archivo CSV en Google BigQuery, puede usar opciones avanzadas.







Para obtener más información sobre el formato CSV, consulte la documentación detallada de Internet Society.



Carga de datos de archivos JSON



Para cargar datos desde un archivo JSON, repita todos los pasos anteriores: cree o seleccione un conjunto de datos y una tabla con los que esté trabajando; solo elija JSON como formato de archivo.

Puede cargar un archivo JSON desde su computadora, Google Cloud Storage o Google Drive.







Nota: Para obtener más información sobre el formato JSON, consulte la documentación de Google Cloud.



Descarga de datos de Google Cloud Storage.



Google Cloud Storage le permite almacenar y transferir datos en línea de forma segura.



Información útil sobre el uso de este servicio:



Introducción a Google Cloud Storage

Documentación de Cloud Storage

Guías de inicio rápido

Elección de almacenamiento y base de datos en Google Cloud Platform



Puede cargar archivos desde Google Cloud Storage a Google BigQuery en los siguientes formatos:



  • CSV
  • JSON (delimitado por saltos de línea)
  • Avro
  • Parquet
  • ORC
  • Cloud Datastore








Puede leer más sobre el uso de Cloud Storage con big data en la documentación oficial .



También puede obtener información sobre los límites y permisos de carga de Cloud Storage en el Centro de ayuda de Google Cloud.



Carga de datos de otros servicios de Google como Google Ads y Google Ad Manager.



Para descargar datos de varios servicios de Google, primero debe configurar el Servicio de transferencia de datos de BigQuery. Antes de poder usarlo, debe seleccionar o crear un proyecto de datos y, en la mayoría de los casos, habilitar la facturación. Por ejemplo, se requiere facturación para los siguientes servicios:



  • Director de campaña
  • Administrador de anuncios de Google
  • Anuncios de Google
  • Google Play (beta)
  • YouTube: informes de canales
  • YouTube: informes de propietarios de contenido




Nota: Para obtener más información sobre cómo configurar y cambiar la facturación, consulte el Centro de ayuda de Google Cloud.



Para iniciar el Servicio de transferencia de datos de BigQuery, en la página de inicio de BigQuery , seleccione Transferencias en el menú de la izquierda.







Nota: necesita derechos de administrador para crear una transferencia.



En la siguiente ventana, todo lo que tiene que hacer es seleccionar la fuente de datos deseada.







Nota: Se puede acceder al Servicio de transferencia de datos de BigQuery no solo desde la consola de la plataforma, sino también desde:

  • clásico bq_ui
  • herramienta de línea de comandos bq
  • API del servicio de transferencia de datos de BigQuery




Una vez configurado, el servicio cargará datos de forma automática y periódica en BigQuery. Sin embargo, no puede usarlo para descargar datos de BigQuery.



Cargando datos usando la API



Con las bibliotecas cliente de Cloud, puede usar su lenguaje de programación favorito para trabajar con la API de Google BigQuery.



Nota: Puede encontrar más información sobre la carga de datos mediante la API en la documentación de Google Cloud .



Primero, debe crear o seleccionar un proyecto con el que trabajará. Luego, en la página principal, vaya a la sección API.







En la ventana de descripción general de API, puede conectar API y servicios. Debe seleccionar la API que necesita de la biblioteca.







En la biblioteca, puede utilizar la búsqueda de campo o filtrar la API por categoría.







Puede utilizar un conjunto de scripts de Python de OWOX BI para automatizar la importación de datos a Google BigQuery.

Existen scripts para automatizar la importación de datos a Google BigQuery de las siguientes fuentes:



  • amoCRM
  • FTP
  • FTPS
  • HTTP (S)
  • Intercomunicador
  • ExpertSender
  • MySQL
  • SFTP




Estos scripts de Python se pueden descargar desde GitHub .



Nota: Aprenda a usar Python con la API de Google en este video tutorial de Google Developers en YouTube .



conclusiones



En este artículo, hemos cubierto las formas más populares de cargar datos en Google BigQuery. Desde la simple carga de un archivo de datos hasta la carga de datos a través de API, cualquier usuario puede encontrar una opción adecuada.






All Articles