成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SpringBoot與Apache Drill整合,實現非結構化數據的實時查詢與數據湖分析系統

開發 前端
隨著業務的發展,我們公司堆積了大量的非結構化數據,如日志文件、社交媒體數據、傳感器數據等。傳統數據倉庫難以有效處理這些多樣化的數據類型。

隨著業務的發展,我們公司堆積了大量的非結構化數據,如日志文件、社交媒體數據、傳感器數據等。傳統數據倉庫難以有效處理這些多樣化的數據類型。為了更好地利用這些數據資產,提高數據分析效率,我們需要一個實時查詢能力、靈活的數據存儲和管理方案。

Apache Drill在我們項目中的優勢

靈活性:

  • 我們的數據來源多樣,包括 JSON 日志文件、CSV 文件和 MongoDB 數據庫。Drill 的 Schema-Free 特性使得我們可以輕松地查詢這些不同類型的數據,而無需提前定義模式。

性能:

  • Drill 的分布式架構使其能夠高效地處理大規模數據集。這對于我們的大數據分析需求至關重要。

易于集成:

  • Drill 支持標準的 SQL 接口,便于與現有的 BI 工具(如 Tableau、Power BI)和 Spring Boot 應用程序集成。

低成本:

  • 使用 Drill 可以避免購買昂貴的商業查詢引擎許可證,從而降低整體運營成本。

Apache Drill

Apache Drill是一個開源的分布式 SQL 查詢引擎,專為大規模數據湖和 NoSQL 存儲系統設計。它允許用戶通過標準的 SQL 接口查詢結構化、半結構化和非結構化數據,而無需預先定義模式或架構。

Schema-Free 查詢:

  • Drill 不需要預先定義數據模式即可進行查詢。它可以動態地讀取和解析多種數據格式,包括 JSON、Parquet、Avro、CSV 等。

分布式架構:

  • Drill 采用分布式架構,可以處理 PB 級別的數據。它可以在多臺機器上并行執行查詢任務,提供高性能和可擴展性。

標準 SQL 支持:

  • Drill 支持標準的 SQL 語法,使得現有的 BI 工具和應用程序可以無縫集成。這降低了學習曲線,并提高了開發效率。

插件機制:

  • Drill 使用插件機制來支持不同的數據存儲系統。內置插件包括 HDFS、MapR-FS、MongoDB、Cassandra 等,還可以通過編寫自定義插件來擴展支持更多數據源。

實時查詢能力:

  • Drill 提供低延遲的數據訪問和查詢能力,適用于實時數據分析場景。

嵌套數據支持:

  • Drill 能夠處理嵌套數據結構(如 JSON 和 Avro),并且可以遞歸地展開這些結構以進行查詢。

Web UI:

  • Drill 提供了一個簡單的 Web 界面,用于監控集群狀態、查看查詢日志和管理配置。

哪些公司使用了Apache Drill?

Intel

  • 用途: Intel 使用 Apache Drill 進行芯片設計和制造過程中的數據分析,以提高產品質量和生產效率。
  • 優勢: Drill 的高性能和可擴展性滿足了 Intel 復雜的數據處理需求。

Yahoo!

  • 用途: Yahoo! 使用 Apache Drill 進行大規模的數據分析和報告生成。
  • 優勢: Drill 的插件機制支持多種數據源,便于整合不同的數據存儲系統。

Airbnb

  • 用途: Airbnb 使用 Apache Drill 進行房源數據和用戶行為分析,以提升用戶體驗和平臺性能。
  • 優勢: Drill 的 Schema-Free 查詢特性使得 Airbnb 能夠快速適應不斷變化的數據需求。

PayPal

  • 用途: PayPal 使用 Apache Drill 進行交易數據和用戶活動的分析,以提高欺詐檢測和風險評估的能力。
  • 優勢: Drill 的高性能和可擴展性滿足了 PayPal 大規模數據處理的需求。

eBay

  • 用途: eBay 使用 Apache Drill 進行大規模的日志分析和用戶行為分析。
  • 優勢: Drill 的 Schema-Free 查詢特性使得 eBay 能夠輕松地分析各種格式的數據。

LinkedIn

  • 用途: LinkedIn 使用 Apache Drill 進行大規模的社會網絡數據分析和用戶行為跟蹤。
  • 優勢: Drill 的靈活查詢能力使其能夠處理復雜的數據結構和關系。

Adobe

  • 用途: Adobe 使用 Apache Drill 進行數字營銷數據的分析,特別是在客戶體驗管理和廣告投放優化方面。
  • 優勢: Drill 的標準 SQL 支持使得 Adobe 可以利用現有的 BI 工具進行復雜的報表生成。

Uber

  • 用途: Uber 使用 Apache Drill 進行運營數據和地理空間數據分析,以優化路線規劃和司機調度。
  • 優勢: Drill 的分布式架構和高性能查詢能力使其能夠處理實時數據流。

啟動Apache Drill

我這邊已經啟動了Apache Drill。

你可以從Apache Drill官方網站 (https://drill.apache.org/download/)下載并按照官方文檔進行安裝。超級簡單!

代碼實操

<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.example</groupId>
    <artifactId>data-lake-analysis</artifactId>
    <version>0.0.1-SNAPSHOT</version>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.5</version>
        <relativePath/><!-- lookup parent from repository -->
    </parent>

    <properties>
        <java.version>11</java.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <dependency>
            <groupId>org.apache.drill.exec</groupId>
            <artifactId>drill-jdbc-all</artifactId>
            <version>1.21.0</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-validation</artifactId>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-maven-plugin</artifactId>
            </plugin>
        </plugins>
    </build>

</project>

配置Drill

application.properties文件中配置Drill:

# 數據庫連接配置
spring.datasource.url=jdbc:drill:zk=local
spring.datasource.driver-class-name=org.apache.drill.jdbc.Driver
spring.jpa.show-sql=true

# 服務器端口配置
server.port=8080

Controller

package com.example.datalakeanalysis.controller;

import com.example.datalakeanalysis.exception.ApiRequestException;
import com.example.datalakeanalysis.service.DataLakeService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.HttpStatus;
import org.springframework.validation.FieldError;
import org.springframework.web.bind.MethodArgumentNotValidException;
import org.springframework.web.bind.annotation.*;

import javax.validation.Valid;
import java.sql.SQLException;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

// 控制器類,處理HTTP請求
@RestController
@RequestMapping("/api/v1")
publicclass DataLakeController {

    @Autowired
    private DataLakeService dataLakeService;  // 自動注入數據湖服務

    // 處理GET請求,執行銷售數據查詢
    @GetMapping("/sales/query")
    public List<Map<String, Object>> executeSalesQuery(@RequestParam@Valid String sql) throws SQLException {
        return dataLakeService.executeQuery(sql);  // 調用服務層方法執行查詢并返回結果
    }

    // 處理驗證異常,返回400 Bad Request狀態碼
    @ExceptionHandler(MethodArgumentNotValidException.class)
    @ResponseStatus(HttpStatus.BAD_REQUEST)
    public Map<String, String> handleValidationExceptions(
            MethodArgumentNotValidException ex) {
        Map<String, String> errors = new HashMap<>();
        ex.getBindingResult().getAllErrors().forEach((error) -> {
            String fieldName = ((FieldError) error).getField();  // 獲取字段名
            String errorMessage = error.getDefaultMessage();     // 獲取錯誤信息
            errors.put(fieldName, errorMessage);                 // 將字段名和錯誤信息放入Map
        });
        return errors;                                         // 返回錯誤信息Map
    }

    // 處理SQL異常,返回500 Internal Server Error狀態碼
    @ExceptionHandler(SQLException.class)
    @ResponseStatus(HttpStatus.INTERNAL_SERVER_ERROR)
    public Map<String, String> handleSQLExceptions(SQLException ex) {
        Map<String, String> error = new HashMap<>();
        error.put("message", "Database query failed: " + ex.getMessage());  // 設置錯誤消息
        return error;                                                         // 返回錯誤信息Map
    }

    // 處理所有其他異常,返回500 Internal Server Error狀態碼
    @ExceptionHandler(Exception.class)
    @ResponseStatus(HttpStatus.INTERNAL_SERVER_ERROR)
    public Map<String, String> handleGenericExceptions(Exception ex) {
        Map<String, String> error = new HashMap<>();
        error.put("message", "An unexpected error occurred: " + ex.getMessage());  // 設置錯誤消息
        return error;                                                             // 返回錯誤信息Map
    }
}

自定義API請求異常類

package com.example.datalakeanalysis.exception;

// 自定義API請求異常類
publicclass ApiRequestException extends RuntimeException {

    // 構造函數,接受錯誤消息
    public ApiRequestException(String message) {
        super(message);
    }

    // 構造函數,接受錯誤消息和原因
    public ApiRequestException(String message, Throwable cause) {
        super(message, cause);
    }
}

異常響應類

package com.example.datalakeanalysis.exception;

import lombok.AllArgsConstructor;
import lombok.Data;

// 異常響應類,包含錯誤消息和詳細信息
@Data
@AllArgsConstructor
public class ApiRequestExceptionResponse {
    private String message;  // 錯誤消息
    private String details;  // 詳細信息
}

全局異常處理器

package com.example.datalakeanalysis.exception;

import org.springframework.http.HttpStatus;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.ControllerAdvice;
import org.springframework.web.bind.annotation.ExceptionHandler;
import org.springframework.web.context.request.WebRequest;

// 全局異常處理器,處理所有未捕獲的異常
@ControllerAdvice
publicclass GlobalExceptionHandler {

    // 處理ApiRequestException異常,返回400 Bad Request狀態碼
    @ExceptionHandler(ApiRequestException.class)
    public ResponseEntity<Object> handleApiRequestException(ApiRequestException e, WebRequest request) {
        ApiRequestExceptionResponse exceptionResponse = new ApiRequestExceptionResponse(e.getMessage(), request.getDescription(false));
        returnnew ResponseEntity<>(exceptionResponse, HttpStatus.BAD_REQUEST);
    }

    // 處理所有其他異常,返回500 Internal Server Error狀態碼
    @ExceptionHandler(Exception.class)
    public final ResponseEntity<Object> handleAllExceptions(Exception ex, WebRequest request) {
        ApiRequestExceptionResponse exceptionResponse = new ApiRequestExceptionResponse(ex.getMessage(),
                request.getDescription(false));
        returnnew ResponseEntity<>(exceptionResponse, HttpStatus.INTERNAL_SERVER_ERROR);
    }
}

銷售數據模型類

package com.example.datalakeanalysis.model;

import lombok.Data;

// 銷售數據模型類,使用Lombok簡化getter和setter方法的編寫
@Data
public class Sale {
    private String id;          // 銷售記錄ID
    private String product;     // 產品名稱
    private double amount;      // 銷售金額
    private String date;        // 銷售日期
}

數據湖服務類

package com.example.datalakeanalysis.service;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import javax.sql.DataSource;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

// 數據湖服務類,負責執行SQL查詢并返回結果
@Service
publicclass DataLakeService {

    @Autowired
    private DataSource dataSource;  // 自動注入數據源

    // 執行SQL查詢的方法
    public List<Map<String, Object>> executeQuery(String sql) throws SQLException {
        try (Connection connection = dataSource.getConnection();  // 獲取數據庫連接
             Statement statement = connection.createStatement();       // 創建Statement對象
             ResultSet resultSet = statement.executeQuery(sql)) {      // 執行SQL查詢并獲取結果集

            List<Map<String, Object>> result = new ArrayList<>();   // 存儲查詢結果的列表
            while (resultSet.next()) {                              // 遍歷結果集中的每一行
                Map<String, Object> row = new HashMap<>();            // 每一行的數據存儲在一個Map中
                for (int i = 1; i <= resultSet.getMetaData().getColumnCount(); i++) {  // 遍歷每一列
                    row.put(resultSet.getMetaData().getColumnName(i), resultSet.getObject(i));  // 將列名和值放入Map
                }
                result.add(row);                                      // 將Map添加到結果列表中
            }

            return result;                                          // 返回查詢結果
        }
    }
}

啟動類

package com.example.datalakeanalysis;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

// 主啟動類,用于啟動Spring Boot應用程序
@SpringBootApplication
public class DataLakeAnalysisApplication {

    // 程序入口點
    public static void main(String[] args) {
        SpringApplication.run(DataLakeAnalysisApplication.class, args);
    }
}


責任編輯:武曉燕 來源: Java知識日歷
相關推薦

2021-12-12 08:37:18

結構化數據非結構化數據數據

2024-05-27 00:32:45

2018-04-03 14:00:03

結構化數據非結構化數據數據庫

2025-03-11 09:28:34

2017-11-16 05:22:34

非結構化數據分析數據

2019-07-13 15:00:17

結構化SQLNOSQL數據庫

2011-05-25 15:16:55

非結構化數據庫異構數據庫

2023-01-06 08:00:00

關系數據庫數據庫機器學習

2025-04-01 08:38:41

2019-10-18 13:07:14

PB數據非結構化數據數據集

2025-06-03 02:10:00

SpringInfluxDB數據

2014-02-09 09:53:05

2009-07-28 11:44:37

布線系統結構化

2023-10-13 07:25:50

2023-02-26 00:12:10

Hadoop數據湖存儲

2025-04-14 01:00:00

Calcite電商系統MySQL

2017-05-20 10:36:37

非結構化數據分析技術

2025-04-29 08:36:28

SpringCanal數據庫

2024-05-10 12:52:01

2009-02-16 15:41:04

非結構化數據SQL Server SQL Server
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美激情五月 | 一区二区三区四区日韩 | 成人国产精品 | 日韩精品一区二区三区高清免费 | 亚洲精品黄色 | 久久影音先锋 | 99精品视频一区二区三区 | 亚洲精品第一国产综合野 | 日本三级电影在线观看视频 | 欧美成人二区 | 欧美在线不卡 | 亚洲三级在线 | 色久电影 | 午夜看片 | 国产亚洲精品久久yy50 | 成人性生交a做片 | 青娱乐av | 91视频a| 日韩α片 | 国产精品极品美女在线观看免费 | 永久av| 日韩第一夜| 亚洲a视 | 国产高清精品一区二区三区 | 99日韩| 鲁视频| 欧美精品一区二区三区蜜桃视频 | 国产在线一级片 | 久久国产成人 | 日韩精品在线看 | 一级看片免费视频 | 久久国产精品一区二区三区 | www.国产一区 | 伊人狠狠干| 免费精品视频 | 北条麻妃视频在线观看 | 97超碰在线播放 | 日日噜噜噜夜夜爽爽狠狠视频, | 国产一区2区| 91视视频在线观看入口直接观看 | 精品国产一区二区三区免费 |