日志:每个软件工程师都应该知道的有关实时数据的统一抽象
https://www.kancloud.cn/kancloud/log-real-time-datas-unifying/58709
- 日志的好处都来自日志所能提供的简单功能:生成持久化的可重放的历史记录
- 令人意外的是,能让多台机器以确定性的方式(
deterministic manner
)按各自的速度重放历史记录的能力是这些问题的核心 - 归根结底,
Google
的财富来自于建立在点击和展示(clicks and impressions
)上的相关性管道(relevance pipeline
),而这些点击和展示正是事件。 - 日志也起到缓冲的作用,使数据的生产异步于数据的消费
- 每一个都是专用的分布式系统,在各自的专门领域提供高级的功能。
- 集成工作只需连接这个新系统到一个单独的管道,而无需连接到每个数据消费方 ---kafka
- 在相当长的时间内,
Kafka
是独一无二的(有人会说是怪异)- —— 作为一个底层设施,它既不是数据库,也不是日志文件收集系统,更不是传统的消息系统。
- 数据仓库是个批处理查询基础设施:
- 它们适用于各类报表和临时性分析,特别是当查询包含了简单的计数、聚合和过滤。
- 追加日志时,分片方式在片段之间可以不需要协调,并且可以使系统的吞吐量与
Kafka
集群大小线性增长。 - 缺少跨分片的全局顺序是个局限,但是我们没有发现它成为大问题。
Kafka
非常积极做这方面的优化。客户端向服务器端的数据发送、磁盘写入、服务器之间复制、到消费者数据传递和数据提交确认 都会做批处理。
以上是 日志:每个软件工程师都应该知道的有关实时数据的统一抽象 的全部内容, 来源链接: utcz.com/z/518886.html