日志:每个软件工程师都应该知道的有关实时数据的统一抽象

编程

https://www.kancloud.cn/kancloud/log-real-time-datas-unifying/58709

  • 日志的好处都来自日志所能提供的简单功能:生成持久化的可重放的历史记录
  • 令人意外的是,能让多台机器以确定性的方式(deterministic manner)按各自的速度重放历史记录的能力是这些问题的核心
  • 归根结底,Google的财富来自于建立在点击和展示(clicks and impressions)上的相关性管道(relevance pipeline),而这些点击和展示正是事件。
  • 日志也起到缓冲的作用,使数据的生产异步于数据的消费
  • 每一个都是专用的分布式系统,在各自的专门领域提供高级的功能。
  • 集成工作只需连接这个新系统到一个单独的管道,而无需连接到每个数据消费方 ---kafka
  • 在相当长的时间内,Kafka是独一无二的(有人会说是怪异)

    • —— 作为一个底层设施,它既不是数据库,也不是日志文件收集系统,更不是传统的消息系统。 
  • 数据仓库是个批处理查询基础设施:

    • 它们适用于各类报表和临时性分析,特别是当查询包含了简单的计数、聚合和过滤。 
  • 追加日志时,分片方式在片段之间可以不需要协调,并且可以使系统的吞吐量与Kafka集群大小线性增长。
  • 缺少跨分片的全局顺序是个局限,但是我们没有发现它成为大问题。
  • Kafka非常积极做这方面的优化。客户端向服务器端的数据发送、磁盘写入、服务器之间复制、到消费者数据传递和数据提交确认 都会做批处理。

以上是 日志:每个软件工程师都应该知道的有关实时数据的统一抽象 的全部内容, 来源链接: utcz.com/z/518886.html

回到顶部