您当前位置:主页 > 程序员娱乐平台 >
 
数据湖跟数据库又有什么区别
日期:2018-10-01 编辑:918Õ
导读:如果你与大数据有一丝关系,你就会知道,为每秒生成的数据量找到存储解决方案是至关重要的。当涉及到管理数据时,数据专业人员可以考虑使用数据仓库或数据湖作为数据存储库。为了

如果你与大数据有一丝关系,你就会知道,为每秒生成的数据量找到存储解决方案是至关重要的。当涉及到管理数据时,数据专业人员可以考虑使用数据仓库或数据湖作为数据存储库。为了确定什么对您的组织最有利,让我们首先定义它们是什么,然后比较它们。
什么是数据湖?
有些人错误地认为数据湖只是数据库的2.0版本。虽然它们相似,但它们是不同的工具,应该用于不同的目的。James Dixon是Pentaho的首席技术官,他命名了数据湖的概念。他用了下面的比喻:
如果你把数据仓库想象成储存瓶装水的仓库--经过清洗、包装,结构简单,便于消费--数据湖是一个更自然的大水体。 数据湖的内容从一个来源流入来填满湖,湖的各种用户可以来检查,潜水,或取样。
数据湖以非结构化的方式保存数据,在单个数据块之间没有层次结构或组织。它以最原始的形式保存数据,不进行处理或分析。此外,数据湖接受并保留来自所有数据源的所有数据,支持所有数据类型和模式(数据存储在数据库中的方式)仅在数据准备使用时应用。
什么是数据库?
数据库以一种有组织的方式存储数据,所有数据都以一种定义的方式存档和排序。在开发数据仓库时,在分析数据源和理解业务流程的初始阶段会进行大量工作。对于要从仓库中包含和排除哪些数据,需要做出决策。只有在标识了数据的使用之后,数据才被加载到仓库中。
数据湖和数据库如何比较?
1.数据
数据湖保留所有数据结构、半结构和非结构/原始数据。数据湖中的一些数据可能永远不会被使用。数据湖也保存着所有的数据。数据仓库只包含经过处理(结构化)的数据,并且只包含报告或回答特定业务问题所需的数据。
2.敏捷性
由于数数据湖缺乏结构,因此对模型和查询进行更改相对容易。数据湖更加灵活,可以根据需要对数据湖进行配置和重新配置。由于与数据库相关联的业务流程数量多,因此更改数据库的结构要麻烦得多,耗时也长。
3.用户
数据科学家通常是在数据湖中访问数据的人,因为他们有进行深入分析的技能。从技术上讲,数据湖可以支持所有用户,并对所有用户开放。数据库由特定的业务用户使用,用于从数据库建立时定义的数据中报告和提取特定含义;对于需要跨越仓库边界从数据中收集新分析的数据科学家来说,它们通常太过严格。
4.安全
由于数据库比数据湖更加成熟,数据库的安全性也更加成熟。还有一个问题是,由于所有数据都存储在数据湖中的一个存储库中,这也会使数据更加脆弱。只要管理一个存储,审计和遵从性就会变得更容易。
数据湖和数据库是用于不同目的的不同工具。如果您已经建立了数据库,那么您可能会选择在它旁边实现一个数据湖,以解决您在数据仓库中遇到的一些约束。要确定数据湖或数据库是否最适合您的需求,您应该从您试图实现的目标开始,并使用帮助您实现目标的数据存储库。
转自Bernard Marr,forbes返回,查看更多

本文源自: AG环亚娱乐

上一篇:高校人工智能发展的关键词 下一篇:OpenPOWER基金会宣布新成员和创新成果
 
Copyright © 2005-2016 http://www.tecsquared.com AG环亚娱乐_AG直营网_环亚娱乐AG最佳线路_腾讯体育版权所有 AG环亚娱乐_AG直营网_环亚娱乐AG最佳线路_腾讯体育