http://www.digitaltwin.tv/

可视化交互式数据阐明东西Apache Zeppelin

           
       

   订阅  

   

 
 

可视化交互式数据阐明东西Apache Zeppelin

 
   
作者:呆板熊技能大杂烩  
   

290 次欣赏     评价:

 
  2020-8-12   
 
   
编辑推荐:  
本文主要先容了Apache Zeppelin的观念,主要成果和特点以及Zeppelin支持语言和组件,但愿本文对各人有辅佐。
本文来自CSDN,由火龙果软件Alice编辑、推荐。
 
 

1. 什么是Apache Zeppelin

在正式进入Apache Zeppelin的正题之前,我们必需先相识两个观念。

REPL

REPL全称是Read Evaluate Print Loop,交互式表明器情况,通过交互式界面吸收用户输入,交互式表明器读取输入内容并对它求值,返回功效,并反复此进程。

Jupyter Notebook

Jupyter Notebook(早期叫IPython notebook)是一个交互式条记本,支持运行 40 多种编程语言。Jupyter Notebook 的是一个Web应用措施,便于建设和共享措施文档,支持及时代码、数学方程、可视化和Markdown语法,常用在数据清理转换、数值模仿、统计建模、呆板进修等业务场景。

1.1 官方的界说

Apache Zeppelin官方网站的界说如下

Web-based notebook that enables data-driven, interactive data analytics and collaborative documents with SQL, Scala and more.

翻译过来就是

Zeppelin是支持数据驱动、交互式数据阐明、协作式文档等特性的基于Web的交互式应用开拓引擎,应用以Notebook形式暗示,支持Scala、Python、SQL、Markdown、shell等多种语言。

个中,Notebook是来自于Jupyter的观念,Zeppelin在前端以Jupyter作为事情引擎,将一个应用作为一个Notebook。

可视化交互式数据阐发对象Apache Zeppelin

Zeppelin官方网站

Github地点 https://github.com/apache/zeppelin

别的,需要提一点的是在Github上Apache Zeppelin初次提交的时间是2015年7月,第一个正式版本是0.5.0,最新宣布(2019年1月)的版本是0.8.1。

有意思的是,奇虎360的一个漫衍式Key-Value存储组件也叫Zeppelin,项目代码在Github初次提交是2016年。项目地点https://github.com/Qihoo360/zeppelin

1.2 通俗易懂的领略

Apache Zeppelin是一款大数据阐明和可视化东西,可以让数据阐明师在一个基于Web页面的条记本中,利用差异的语言,对差异数据源中的数据举办交互式阐明,并对阐明功效举办可视化的东西。

Zeppelin的设计理念就是通过差异的表明器支持多种语言的REPL,并对返回功效举办可视化展示。

1.3 Apache Zeppelin的主要成果和特点

1.3.1 主要成果

可视化交互式数据阐明

用户通过可视化界面,交互式地输入指令、代码提交给Zeppelin编译执行。

Notebook打点

用户通过Web页面轻松地实现Notebook应用的增加、修改、运行和删除,支持应用的快速导入导出。

数据可视化

指令、代码提交后Zeppelin返回功效给用户,假如是布局化的数据,Zeppelin提供可视化机制,通过种种图表展示数据,十分利便。

可视化交互式数据阐发对象Apache Zeppelin

表明器设置

用户可以设置系统内置的Spark、JDBC、Elasticsearch等表明器,支持按组打点表明器、为一个Notebook应用绑定多个表明器。

运行任务打点

用户将Notebook应用提交给Zeppelin运行,也可以遏制正在运行的任务。

用户认证

Zeppelin提供完善的用户认证机制。

Notebook应用一键分享

调试完毕的Notebook应用可以提供统一会见的HTTP地点给外部应用会见。

1.3.2 主要特点

完全开源

Apache系列软件的最大特点就是开源,无论是进修照旧企业应用,一概不需要授权。

多语言多生态组件支持

Apache Zeppelin提供20多种语言和大数据生态组件表明器,支持Python、Shell、Scala、R、Markdown等语言的REPL;支持利用JDBC方法对PostgreSQL、Mysql、Mariadb等常见数据库的CRUD操纵;支持Hive、Cassandra、HDFS、Spark、Hbase、Kylin、Elasticsearch、BigQuery、Neo4j等大数据生态组件的REPL。

可视化交互式数据阐发对象Apache Zeppelin

富厚的数据阐明案例

Hortonworks的HDP产物内置了很大都据阐明案例,通过Zeppelin提供的导入成果可以很轻松地讲阐明应用集成到本身的产物中。

插件机制

用户可以遵循Zeppelin的插件集成布局本身界说表明器,接口清晰,设置简朴容易实现。

多用户机制

Zeppelin具有完善的用户权限认证机制,用户可以打点本身的Notebook。

2. Zeppelin支持语言和组件

Zeppelin支持的语言和组件列表见下表:

可视化交互式数据阐发对象Apache Zeppelin

常用的表明器说明:

语言表明器:完全支持Python、Shell、Markdown、R语言;

前端框架表明器:支持前端框架Angular的语法,用户可以实现富厚的名目化输出;

Spark表明器:支持基于scala语言的Spark Core、Mllib、GraphX挪用,以纯SQL方法支持Spark SQL,以R语言为基本支持Spark R语法等;

JDBC表明器:支持常见干系型数据库PostgreSQL、Mysql、Mariadb以及大数据组件Hive和Phoenix;

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。