2024年大数据最全大数据物流项目:概述及Docker入门(一)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

05–[理解]-项目核心业务流程

了解针对物流快递行业来说,业务流程是如何进行的:从客户A下单开始,一直到,客户B收到快件结束。

快递业务流程:

  • 1)、发货客户:客户下单
  • 2)、受理部分:快递员上门取货
  • 3)、发货网点仓库:将快递放到网点仓库,其中需要分类处理,等到运输配送
  • 4)、中转仓库:可选,只有不能直接送到,经过中转仓库,需要再次配送
  • 5)、目的部门:快递经过运输,已经送达到目的地网点,分配给相应派送人员
  • 6)、收货客户:收取快递。

06–[理解]-项目逻辑架构

​ 接下来,看一下整个物流项目:逻辑技术架构图,项目中每个步骤使用什么技术,技术选项(为什么选这个技术框架)。

AdHoc:即席查询,即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。

即席查询,在大数据领域中,比较普遍需求,随时依据用户的需求,查询分析海量数据。

在神策数据产品中,用户自定义查询,就是所说的即席查询,底层使用Impala分析引擎。

思考:为什么选择这些技术框架,原因是什么???

  • 1)、异构数据源:表示业务数据存储到不同系统中,此处仅仅演示2个数据库
  • 2)、数据采集平台:物流项目数据采集属于实时增量采集,类似Flume日志数据。
  • 3)、数据存储平台
  • 4)、数据计算平台:实时查询(Impala和StructuredStreaming、ES)和离线分析(SparkSQL)
  • 5)、大数据平台应用

07–[掌握]-项目数据流转及核心业务

任何一个大数据项目,首先数据流转图:项目数据从哪里来的,存储到哪里去,进行什么应用分析。

  • 1)、业务服务器(存储业务数据)
    • 物流项目来说,需要将多个业务系统数据,实时采集到大数据框架Kafka中
    • 物流系统Logistics业务数据,存储Oracle数据库
    • CRM客户关系管理系统业务数据,存储MySQL数据库
  • 2)、大数据服务器(存储业务数据、分析数据和调度执行)

    • 第一部分功能、离线报表和即席查询

      • 将业务数据实时增量存储数据库:Kudu(类比HBase数据库)
      • SparkSQL分析Kudu表数据,进行离线报表统计
      • Impala查询Kudu表数据,进行即席查询,一对CP组合
      • 第二部分功能:实时大屏展示

        • 将业务数据存储到ClickHouse表中,需要实时查询 ,快速的查询(分组,聚合和排序)
        • 通过服务接口对外提供数据查询功能及数据导出。
        • 第三部分功能:物流信息检索

          • 将核心业务数据(快递单数据和运单数据)存储至Elasticsearch索引中,可以快速检索物流
          • 3)、如何将业务数据实时ETL存储到Es、CK或Kudu中呢??

            • 编写结构化流应用程序,实时从Kafka消费数据,进行ETL转换后,存储到各种存储引擎。
              val spark: SparkSession 
              spark.readStream.format("kafka").option().load
              streamDF.writeStream.format("es/clickhouse/kudu").option().start
              

08–[理解]-项目技术选型及软件版本

针对每个项目来说,要清楚一点,技术框架选择(为什么选择)。

  • 1)、流式处理平台:采用Kafka作为消息传输中间介质

    在大数据领域中,主要是实时数据分析,实时数据ETL转换等等,基本上都是从Kafka消费数据。

  • 2)、分布式计算平台:分布式计算采用Spark生态

    在大数据分析中,可以使用Spark解决问题,就不要考虑Flink框架。

​ 本项目使用Structured Streaming开发实时部分,同时离线计算使用到SparkSQL,而Spark的生态相对于Flink更加成熟,因此采用Spark开发。

为什么不使用SparkStreaming进行实时数据ETL转换存储呢??而是使用StructuredStreaming...

  • 3)、海量数据存储

    • ETL后的数据存储到Kudu中,供实时、准实时查询、分析

      Kudu数据库,提供HBase数据库:随机读写数据;提供HDFS文件系统功能:批量快速加载数据

  • Elastic Search作为单据数据的存储介质,供顾客查询订单信息
  • ClickHouse作为实时数据的指标计算存储数据库,进行大屏展示数据查询和数据接口

    • ClickHosue数据库目前国内使用最为广泛之一OLAP分析数据库,诞生5年时间
      • https://zhuanlan.zhihu.com/p/98135840
      • 接口:往往就是URL地址,拼接参数数据,进行HTTP请求,将数据以JSON格式返回。
      • 比如:获取用户访问网站IP地址,解析IP地址,获取省份和城市信息,需要请求高德地主APL
        http://restapi.amap.com/v3/ip?key=e34eb745a49cd9907f15d96418c4f9c0&ip=116.30.197.230
        

框架软件版本:主要基于CDH 6.2.1版本(版本较新),将来编写简历时,此版本不可用

使用CM安装CDH,采集单机部署,提供node2.itcast.cn虚拟机上,全部安装完毕,无需到操作。

新框架:Kudu和Impala都属于CDH产品,由于都是Cloudera公司开发的框架。

09–[理解]-项目非功能描述

​ 在实际项目开发中,除了依据业务开发应用(实时ETL数据转换、报表分析、即席查询等)之外,比如集群规模、业务数据量、开发团队人员配置等等。

编写简历时,每个项目【非功能描述】准备好,牢记于心。

  • 1)、框架版本选型
    • 2)、服务器选型

      不差钱,金融相关公司,使用物理机最好。

      • 3)、集群规模

        数据量:物流项目来说,核心数据【快递单】和【运单】等相关数据

        • 4)、集群资源如下图所示

          在实际项目,服务器来说,系统盘(安装操作系统)和数据盘(存储数据)时分开的,

          • 5)、人员配置参考
            • 6)、开发周期

              10–[了解]-技术亮点及服务器规划

              ​ 在项目该物流项目时,有哪些技术亮点:技术框架属于目前大数据技术中比较新的框架,使用较多的

              客快物流大数据项目学习中,需要2台服务器(虚拟机)分别构建服务器环境,拓扑图如下:

              网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

              需要这份系统化资料的朋友,可以戳这里获取

              一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

              84b3534ec78d16d63c26af63e2e28.png)

              客快物流大数据项目学习中,需要2台服务器(虚拟机)分别构建服务器环境,拓扑图如下:

              [外链图片转存中…(img-Mv0X9CxG-1715602580338)]

              [外链图片转存中…(img-nOvdwJja-1715602580338)]

              网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

              需要这份系统化资料的朋友,可以戳这里获取

              一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!