Apache Hive からみた Open Table Format (OTF) (#36)

OTF Talk 第36回は、Apache Hive PMCメンバーのおくみんさんに「Apache HiveからみたOTF」についてお話をうかがいました。

Apache Hiveとは何か/Apache Hiveへの貢献とPMC/HiveとOpen Table Format/Apache Iceberg対応/Apache Hiveコミュニティ

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

https://www.otftalk.com/

guest: guest：@okumin おくみん Apache Hive PMC メンバー / Treasure Data ソフトウェアエンジニア

host: @simosako 下佐粉昭 AWSのソリューションアーキテクト。専門はデータレイク、データウェアハウス

※感想は #OTFTalk でポストいただけると励みになります。

※発言は各個人のものであり、所属組織を代表するものではありません。

参考）

おくみんさん Xアカウント - https://x.com/okumin

Apache Iceberg活用入門オープンテーブルフォーマットによるデータレイク＆データレイクハウス (書籍) https://book.impress.co.jp/books/1124101072

Apache HiveとIceberg: 2025年春 (おくみんさんによる、HiveのIceberg関連プロジェクト解説) https://blog.okumin.com/entry/2025/05/30/110000

--------------------

※AI生成の目次です。ご参考までに。

[00:00] ゲスト紹介とHive PMCとしての活動

ゲストのおくみんさん（トレジャーデータ）は、約10年のビッグデータ歴を持ち、Apache HiveのPMCメンバーとして開発を主導している。

共著（寄稿）した書籍『Apache Iceberg活用入門』の話題。

[05:22] Apache Hiveとは何か？モダンな構成への変化

Hiveは「メタストア」と「SQLクエリエンジン」の2つの主要コンポーネントで構成される。

実行エンジンはMapReduceからApache TezやLLAPへ移行し、高速化を実現している。

[11:13] Open Table Format（OTF）とHiveの親和性

HiveはApache Icebergを強力にサポートしており、Sparkに次ぐ機能網羅性を誇る。

カタログ機能だけでなく、データのコンパクション（最適化）やクリーンアップなどのメンテナンス機能もHive単体で完結できる「Best of Suite」としての利点。

[16:47] 最新の開発トピック：KubernetesとIceberg v3

HelmチャートによるKubernetesへのデプロイ対応が進んでおり、インフラ管理が容易になりつつある。

Iceberg v3スペックへの対応や、複数テーブルを跨ぐトランザクション機能の実装が進んでいる。

[25:31] Hiveコミュニティの熱量と今後の展望

100名以上のコミッターが在籍し、AI時代やデータレイクハウスの進展に合わせて今なお熱意を持って進化し続けている。

OTF Talk - Open Table Format をテーマとするPodcast