400-0011-866

大数据分析库—PetaBase

定位于管理大规模结构化数据

首页 > 产品 > Petabase > 热门文章

有容乃大,Petabase大肚能容大数据

大数据”这个词,从CCTV的新闻联播,到各大门户网站的新闻头条,几乎每天都出现在我们的视野里。

早在2011年,当大数据浪潮还未在国内掀起轩然大波时,亿信华辰就已经在数据行业里风声水起了:亿信BI广泛用于国家部委、央企的数据分析项目中,并多年评为中国最佳BI奖,部分特性超越国际同类一线产品。

但亿信华辰并不满足于数据分析工具的市场,当“大数据”这头风口的猪还没飞起时,就已开始布局大数据相关技术和产品的研究与开发,并在2013年初发布了第一个大数据产品PetaBaseV1.0。

通过这几年的市场检验和反馈,PetaBase已迭代更新多个版本,成功应用于法院、税务等多个行业。

PetaBase能为企业和政府解决哪些大数据问题?具有哪些重要特性?优势是什么?接下来就由小编为大家一一进行介绍。首先从大数据开始讲起。


什么是大数据?


大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

细心的同学看到上面的描述没有,大数据无法用“常规软件工具”来管理,终于可以祭出咱们的大数据产品“PetaBase”了。


什么是PetaBase?


PetaBase是我公司基于开源平台基础上开发的、具有软件著作权的国产分布式数据库系统产品。PetaBase在开源SQL引擎之上进行了大量SQL功能增强和性能优化,性能提升数倍甚至上百倍,并且集成多项管理工具,使其更适合在Hadoop上进行大规模数据分析、检索、查询。

PetaBase是一个分布式、高性能、支持SQL的大数据实时查询引擎和数据仓库系统,提供对TB级数据交互式查询,查询结果秒级响应。

PetaBase构建于Hadoop之上,采用分布式集群架构,具有动态线性扩展能力,具有很高的容错性、稳定性和可用性,可轻松支持TB甚至PB级以上数据存储。

PetaBase支持列式存储,查询时不读取无关的数据,提升I/O性能。同时列式存储能更好的进行数据压缩,压缩率最低能到30%以下,节省大量磁盘空间。同时也支持多种Hadoop数据格式,更可轻松将现有RDBMS系统的数据导入PetaBase。

PetaBase定位于管理大规模结构化数据(从TB到PB级),适用于批量写操作,大规模随机查询的数据集市、数据仓库等。

说了这么多,用一句简短的话描述就是:PetaBase是一个分布式大数据库产品,它可以存储和分析TB甚至PB级的海量数据。


发展历程


那么PetaBase是怎么来的呢?我们都知道,Hadoop是目前最流行的大数据平台。而基于Hadoop的大数据技术,最初只是互联网大公司的技术概念, 经过十年的快速发展,越来越多的公司开始在Hadoop上开发大数据处理技术。

我公司始终保持敏锐的技术嗅觉,在前期技术积累和新技术驱动下,成功的将SQL技术应用在Hadoop上,于2013年末推出了兼容SQL99标准的PetaBase 1.1版,经过版本不断迭代更新,在2015年发布了具有更丰富SQL特性、可视化管理界面、一键部署安装功能的2.1版。



英文不好的同学可能会问了,为什么产品名字叫PetaBase呢?先来科普一下英文中的各种量词。

一兆是Mega,它的1000倍是Giga,1G的1000倍呢?是Tera。

而1T的1000倍就是Peta

这就是PetaBase这个产品名字的由来,寓意着PetaBase是一个大数据库。


产品特性


下来我们来了解一下PetaBase有哪些“了不起”的特性。


可视化管理

PetaBase提供可视化管理工具,降低传统数据库管理人员向大数据系统转移带来的学习和管理成本。





性能可线性扩展

PetaBase性能可动态线性横向扩展,并发能力和查询性能随集群规模扩大而提高。



高可用和高容错:

PetaBase具有高可用和高容错性,防止节点失效,保证数据不丢失。



列式存储:

PetaBase支持高效的列式存储,支持多种Hadoop文件格式。



负载均衡:

PetaBase还有良好的负载均衡能力,支持多种负载均衡策略,满足不同的应用场景需求。



支持ETL

PetaBase提供对第三方ELT工具支持, 支持几乎所有的ETL工具,包括开源的Kettle、Sqoop等,也支持商业ETL产品,如Data Stage、Informix等。



兼容SQL:

高标准兼容, 兼容SQL-99标准,支持大部分SQL-2003标准。



应用程序接口:

提供多种面向不同应用和数据库管理、开发人员的第三方接口,包括JDBC、ODBC、CLI、Thrift等。



产品优势


俗话说,“货比三家”。为什么选择PetaBase而不选择其它商业产品或者开源同类产品呢。下面先来看一下PetaBase与其它数据库的比较。


强大的海量数据查询性能

在亿级或TB级数据规模下性能均超过传统数据库和开源数据库。




集成度高:

PetaBase集成度高,降低使用和运维门槛,方便、有效的保证大数据系统的落地部署,工程化实施。,在亿级或TB级数据规模下性能均超过传统数据库和开源数据库。



更低的软硬件采购及维护成本:

若干普通PC服务器即可搭建大数据平台,可视化管理界面降低运维人员的培训和使用成本。



应用场景


从前面的章节我们已经知道, PetaBase是一个分布式、高性能、支持SQL的大数据实时查询引擎(请注意:实时的概念通常是指单次执行时间在 200ms 到 20min 之间的查询)。

PetaBase对于大数据量的实时或者准实时计算具有卓越的性能。

前面我们对 PetaBase和 Hive 的性能做了对比,最终的结果表明: PetaBase的平均查询性能是 Hive 的 10 倍。

由于 PetaBase支持多种数据格式,以及对 ANSI SQL 的支持等特性,使得 PetaBase在 ETL、BI查询等多个业务场景中均能发挥重要的作用。


大数据ETL:

如果你有很多的数据,可能来自第三方Hadoop系统,也可能来自其它RDBMS数据库,你想将这些数据集中起来做统一的数据清理、转换,聚合处理后再输出给RDBMS分析用。而这些不同来源的数据多到这些传统数据库没有能力处理,这时PetaBase就可以派上用场了。

由于 PetaBase可以方便地支持多种数据格式以及JDBC等接口,因此我们可以使用ETL工具用简单的 SQL 语句将一个数据源中的数据导入到PetaBase中,在PetaBase进行数据的清理、转换。

在某公司现实使用场景中,通过与 Data Stage系统配合使用,可以实现定时或者以固定频率调度特定的PetaBase SQL脚本(形如 Insert Overwrite Table Partition(…) As Select…的SQL 语句)来完成相关的 ETL 工作。

PetaBase的这种使用方式提供了一种全新的 ETL 方案,比传统的 ETL方案更方便、快捷。


大数据Ad-Hoc查询:

Ad-Hoc查询就是即席查询,即席查询允许用户根据自己的需求随时调整和选择查询条件,软件系统能够根据用户的查询条件返回查询结果或者生成相应的报表。

即席查询和普通应用查询的最大不同是:普通的应用查询是定制开发的,其查询语句是固定或者限制在一定的变动范围之内的;而即席查询允许用户随意指定或者改变查询语句或者查询条件。

即席查询最典型的应用就是BI软件中的OLAP查询。由于BI软件的设计的通用性,其查询用的SQL语句并不是事先写死在程序中的,而是根据用户选择的不同维度和指标动态生成的。

而PetaBase提供多种优化技术支持这种即席查询,使得在大数据集上提供近乎实时的查询能力。



好了,说了这么多,是不是对PetaBase产品有了一个比较全面的了解呢?我们相信,在大数据时代,PetaBase会有越来越多的用武之地。


<< 上一篇
下一篇 >>
大数据在防范偷税漏税方面的作用
产品资料

客服
热线

您好,商务咨询请联系

渠道咨询电话:137-0121-6790

直销热线电话:137-0121-6791

技术
支持

您好,技术支持请联系

QQ:400-0011-866

(工作日9:00-18:00)