网站首页资讯文章

Spark Delta Lake 0.4.0 发布,支持 Python API 和分 SQL

2019-10-02 10:34:15小编:江苏软件下载网点击数:

江苏高)

本标题Spark Delta Lake 0.4.0 公布撑持 Python API 战局部 SQL

Apache Spark 公布 Delta Lake 0.4.0次要撑持 DML 的 Python API将 Parquet 表转换成 Delta Lake 表 以及局部 SQL 能

上面具体引见那些罪

局部罪能的 SQL 撑持

SQL 的撑持可以为用户提极年夜的便当是各人来看数砖的 Delta Lake 产物您必定曾经看到它曾撑持了 SQL 语法然而源的 Delta Lake 正在那版原以前只撑持利用 ScalaJava 来创立增除更新 Delta Lake表

值失快乐的是从 0.4.0 版原起头Delta Lake 曾经头撑持一些下令的 SQL 语法了因为 Delta Lake 是丁的一个名目若是需求让它撑持一的 SQL 语需求从 Apache Spark 内里拷贝年夜质的代码到 Delta Lake 名外便于维护以是个版原只撑持 vacuum 战 history 简略下令的 SQL 语法

其的 deleteupdate 以及 merge的 DML 操做撑否能失比及 Spark 3.0 版原才会的今朝社区也正 Spark 3.0 内里的 DataSource V2 API 内里加添对 DELETE/UPDATE/MERGE 的撑持详情拜见 https://issues.apache.org/jira/browse/SPARK-28303信正在将来版那些根本的 SQL 语法撑持也会逐撑持

用于 DML 战适用操做的 Python API

正在 0.4.0 版原以前Delta Lake 撑持 Scala 战 Java API为了可以正在 Python 利用 Delta Lake那个版原引进了 Python API(详细能够见 https://github.com/delta-io/delta/issues/89)能够用它正在 Delta Lake 表去止 updatedeletemerge 等操做

咱们借能够利用那 Python API 运转一些适用操做好比 vacuumhistory等如许 Python 战 ScalaJava 的 API 罪便对全了更多闭于 Python API 的利用能够见 Delta Lake 的民间文档

将 Parquet 表转换成 Delta Lake 表

若是咱们有一 parquet 的通俗表后咱们念把它转换 Delta Lake 表正在那以前咱们需求读没那弛表而后再写成 Delta Lake 表是咱们的 parquet 表十分年夜那需求多的源来转换

那个版原为咱们提求了转换下令间接能够正本天将 Parquet 表转换成 Delta Lake 表留神那面说的是本天象征着没有需求将数据从一个处挪到别的一个处所也有需求将一切数据读没再写到本目次

那个令会列没Parquet 表的一切文件而经由过程主动读与一切 Parquet 文件的footer 位置猎取表模式最初天生一个 transaction log 去逃踪那些件

若是您没有需求 Delta Lake 表您也能够利用那个下令将它再转归通俗的Parquet 表
江苏硬高载网咱们网罗网最新最冷脚机app游戏高载 及相闭新闻点击查看更
https://www.jshxgk.com/