艾瑞网

搜索
登录登录用户注册

搜索历史

热搜词

互联网

宜信普惠：探寻流式计算，数据梳理不再是难题

来源：互联网作者： 2023年02月10日 14:21

导语：

在企业信息化的过程中，随着信息化工具的升级和新工具的应用，数据量变的越来越大，数据格式越来越多，决策要求越来越苛刻，数据仓库技术在大数据场景中被广泛使用。随着数据处理能力和处理需求的不断变化，越来越多的用户发现，批处理模式无论如何提升性能，也无法满足一些实时性要求高的处理场景，于是流式计算引擎应运而生。

接下来我们就来跟随宜信普惠来了解一下流式计算的一些知识吧！

一、静态数据和流数据

静态数据：为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是静态数据。

流数据：以大量、快速、时变的流形式持续到达的数据。（例如：实时产生的日志、用户实时交易信息）

流数据具有以下特点：

(1)、数据快速持续到达，潜在大小也许是无穷无尽的。

(2)、数据来源众多，格式复杂。

(3)、数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储(存储于数据仓库)。

(4)、注重数据的整体价值，不过分关注个别数据。

(5)、数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序。

在传统的数据处理流程中，总是先收集数据，然后将数据放到DB中。然后对DB中的数据进行处理。

流计算：为了实现数据的时效性，实时消费获取的数据。

二、批量计算和流计算

批量计算：充裕时间处理静态数据，如Hadoop。实时性要求不高。

流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息(实时、多数据结构、海量)。

流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低，如用户点击流。因此，当事件出现时就应该立即进行处理，而不是缓存起来进行批量处理。流数据数据格式复杂、来源众多、数据量巨大，不适合采用批量计算，必须采用实时计算，响应时间为秒级，实时性要求高。批量计算关注吞吐量，流计算关注实时性。

流计算的特点：

1、实时(realtime)且无界(unbounded)的数据流。流计算面对计算的是实时且流式的，流数据是按照时间发生顺序地被流计算订阅和消费。且由于数据发生的持续性，数据流将长久且持续地集成进入流计算系统。例如，对于网站的访问点击日志流，只要网站不关闭其点击日志流将一直不停产生并进入流计算系统。因此，对于流系统而言，数据是实时且不终止(无界)的。

2、持续(continuos)且高效的计算。流计算是一种”事件触发”的计算模式，触发源就是上述的无界流式数据。一旦有新的流数据进入流计算，流计算立刻发起并进行一次计算任务，因此整个流计算是持续进行的计算。

3、流式(streaming)且实时的数据集成。流数据触发一次流计算的计算结果，可以被直接写入目的数据存储，例如将计算后的报表数据直接写入RDS进行报表展示。因此流数据的计算结果可以类似流式数据一样持续写入目的数据存储。

三、流计算框架

为了及时处理流数据，就需要一个低延迟、可扩展、高可靠的处理引擎。对于一个流计算系统来说，它应达到如下需求：

高性能：处理大数据的基本要求，如每秒处理几十万条数据。

海量式：支持TB级甚至是PB级的数据规模。

实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别。

分布式：支持大数据的基本架构，必须能够平滑扩展。

易用性：能够快速进行开发和部署。

可靠性：能可靠地处理流数据。

目前有三类常见的流计算框架和平台：商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架。

(1)商业级： InfoSphere Streams（IBM）和StreamBase（IBM）。