スキップしてメイン コンテンツに移動

Apache Hive からみた Open Table Format (OTF) (#36)

OTF Talk 第36回は、Apache Hive PMCメンバーのおくみんさんに「Apache HiveからみたOTF」についてお話をうかがいました。


https://open.spotify.com/show/27g3HFW9LcEbFlJIYqvsug

https://youtu.be/aCSwFlnsF2s


Apache Hiveとは何か/Apache Hiveへの貢献とPMC/HiveとOpen Table Format/Apache Iceberg対応/Apache Hiveコミュニティ


OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 

https://www.otftalk.com/


guest: guest:@okumin おくみん Apache Hive PMC メンバー / Treasure Data ソフトウェアエンジニア

host: @simosako 下佐粉 昭 AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス

※感想は #OTFTalk でポストいただけると励みになります。

※発言は各個人のものであり、所属組織を代表するものではありません。


参考)

おくみんさん Xアカウント - https://x.com/okumin

Apache Iceberg活用入門 オープンテーブルフォーマットによるデータレイク&データレイクハウス (書籍) https://book.impress.co.jp/books/1124101072

Apache HiveとIceberg: 2025年春 (おくみんさんによる、HiveのIceberg関連プロジェクト解説)  https://blog.okumin.com/entry/2025/05/30/110000


--------------------

※AI生成の目次です。ご参考までに。


[00:00] ゲスト紹介とHive PMCとしての活動


ゲストのおくみんさん(トレジャーデータ)は、約10年のビッグデータ歴を持ち、Apache HiveのPMCメンバーとして開発を主導している。


共著(寄稿)した書籍『Apache Iceberg活用入門』の話題。


[05:22] Apache Hiveとは何か? モダンな構成への変化


Hiveは「メタストア」と「SQLクエリエンジン」の2つの主要コンポーネントで構成される。


実行エンジンはMapReduceからApache TezやLLAPへ移行し、高速化を実現している。


[11:13] Open Table Format(OTF)とHiveの親和性


HiveはApache Icebergを強力にサポートしており、Sparkに次ぐ機能網羅性を誇る。


カタログ機能だけでなく、データのコンパクション(最適化)やクリーンアップなどのメンテナンス機能もHive単体で完結できる「Best of Suite」としての利点。


[16:47] 最新の開発トピック:KubernetesとIceberg v3


HelmチャートによるKubernetesへのデプロイ対応が進んでおり、インフラ管理が容易になりつつある。


Iceberg v3スペックへの対応や、複数テーブルを跨ぐトランザクション機能の実装が進んでいる。


[25:31] Hiveコミュニティの熱量と今後の展望


100名以上のコミッターが在籍し、AI時代やデータレイクハウスの進展に合わせて今なお熱意を持って進化し続けている。

コメント

このブログの人気の投稿

Delta Lake 入門と実践事例 (#21, #22)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #21と#22では、Databricksの桑野 章弘さんに、Delta Lakeの基本的な機能や実践事例について、お話をうかがいました。 guest: @kuwa_tw (桑野 章弘) Databricks ソリューションアーキテクト host:  @simosako  (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第21回: Delta Lake 入門 OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。 Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog https://creators.spotify.com/pod/show/otftalk/episodes/21-Delta-Lake-e2sal2n https://youtu.be/rQr-pZjsh6c 第22回:Delta Lake 実践事例 OTF Talk 第22回は、Databricksの桑野 章弘さんに「Delta Lake 実践事例」についてお話をうかがいました。 Delta Lake ユースケース/機械学習もDWHも同じ環境で/事例/Delta Lakeを選択した理由 https://creators.spotify.com/pod/show/otftalk/episodes/22-Delta-Lake-e2sal3g https://youtu.be/ZP23-MeWo8o 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics  https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/d...

Apache Hudi 1.0 アナウンスブログを読む (番外編) #23

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 第23回は、番外編として、Apache Hudi 1.0リリースのアナウンスブログをホストが読む回です。また、最後に今後のOTF Talkについて少しご案内があります。 host:  @simosako  (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第23回: Apache Hudi 1.0 アナウンスブログを読む (番外編) Apache Hudi 1.0 Release/次世代レイクハウス/1.0の新機能/OTF Talk今後の予定 https://creators.spotify.com/pod/show/otftalk/episodes/23-Apache-Hudi-1-0-e2spqni 参考) ■Apahce Hudi Announcing Apache Hudi 1.0 and the Next Generation of Data Lakehouses  https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/   Apache Hudi 1.0 Release note https://hudi.apache.org/releases/release-1.0.0/   Apache Hudi Roadmap https://hudi.apache.org/roadmap/   ■関連技術 LSM Tree (Wikipedia) https://en.wikipedia.org/wiki/Log-structured_merge-tree   書籍「データ指向アプリケーションデザイン」(オライリー) https://www.oreilly.co.jp/books/9784873118703/   Google Spanner TrueTimeと外部整合性 (Googl...

Apache Hadoopから見たOTF / AWS GlueのOTFサポート (#15,#16)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 第15回と第16回では、鯵坂 明さんに、「Apache Hadoopから見たOTF」や「AWS Glueの OTFサポート」いついてお話をうかがいました。 guest:鯵坂 明さん @ ajis_ka  AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @ simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 第15回:Apache Hadoopから見たOTF OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。 鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ https://podcasters.spotify.com/pod/show/otftalk/episodes/15-Apache-HadoopOTF-e2qf4ec https://youtu.be/nw1s3A33Sio 第16回:AWS GlueのOTFサポート OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。 AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg) https://podcasters.spotify.com/pod/show/otftalk/episodes/16-AWS-GlueOTF-e2qf4fe https://youtu.be/pzXEuV_wPng 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.co...