スキップしてメイン コンテンツに移動

OTF (Open Table Format)入門 (#01~#03)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

この#01~#03では、AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。

guest: @_Bassari (疋田 宗太郎/べりんぐ)

AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。

host: @simosako (下佐粉 昭)

AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。

※感想は #OTFTalk でポストいただけると励みになります。

※発言は各個人のものであり、所属組織を代表するものではありません。

参考文献)

■全般

べりんぐさんブログでのOTFへの全般的な解説

https://bering.hatenadiary.com/entry/2023/07/17/235246

Iceberg, Hudi, Delta Lakeの比較記事

※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。

https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/

■ Apache Iceberg

ホームページ https://iceberg.apache.org/

べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953

Iceberg: a fast table format for S3

当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年)

https://www.youtube.com/watch?v=nWwQMlrjhy0

Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数

https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K

■ Apache Hudi

ホームページ https://hudi.apache.org/

Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/

Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説

https://techblog.yahoo.co.jp/entry/2022052530303179/

■ Delta Lake

ホームページ https://delta.io/

DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake

Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト

※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。

https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB

コメント

このブログの人気の投稿

Trino概要とOTF対応のコネクタ (#11,12)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #11と#12ではStarburst の 蛯原 裕弥 さんをゲストに、Trinoの成り立ちやフェデレーション機能、TrinoコネクタのIceberg, Delta lake対応についてお話をうかがいました。 guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @ simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第11回:Trinoの成り立ちとコネクタの役割 OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。 PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか https://podcasters.spotify.com/pod/show/otftalk/episodes/11-Trino-e2p8r58/a-abiia6n https://youtu.be/vvfo60ZCq1M?si=OfG9ZXSVRqMgN08q ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第12回:Trinoコネクタからみた OTF (Iceberg, Delta lake) OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。 Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta la...

Apache Hadoopから見たOTF / AWS GlueのOTFサポート (#15,#16)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 第15回と第16回では、鯵坂 明さんに、「Apache Hadoopから見たOTF」や「AWS Glueの OTFサポート」いついてお話をうかがいました。 guest:鯵坂 明さん @ ajis_ka  AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @ simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 第15回:Apache Hadoopから見たOTF OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。 鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ https://podcasters.spotify.com/pod/show/otftalk/episodes/15-Apache-HadoopOTF-e2qf4ec https://youtu.be/nw1s3A33Sio 第16回:AWS GlueのOTFサポート OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。 AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg) https://podcasters.spotify.com/pod/show/otftalk/episodes/16-AWS-GlueOTF-e2qf4fe https://youtu.be/pzXEuV_wPng 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.co...

Delta Lake 入門と実践事例 (#21, #22)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #21と#22では、Databricksの桑野 章弘さんに、Delta Lakeの基本的な機能や実践事例について、お話をうかがいました。 guest: @kuwa_tw (桑野 章弘) Databricks ソリューションアーキテクト host:  @simosako  (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第21回: Delta Lake 入門 OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。 Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog https://creators.spotify.com/pod/show/otftalk/episodes/21-Delta-Lake-e2sal2n https://youtu.be/rQr-pZjsh6c 第22回:Delta Lake 実践事例 OTF Talk 第22回は、Databricksの桑野 章弘さんに「Delta Lake 実践事例」についてお話をうかがいました。 Delta Lake ユースケース/機械学習もDWHも同じ環境で/事例/Delta Lakeを選択した理由 https://creators.spotify.com/pod/show/otftalk/episodes/22-Delta-Lake-e2sal3g https://youtu.be/ZP23-MeWo8o 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics  https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/d...