This is a cache of https://b.hatena.ne.jp/q/Iceberg. It is a snapshot of the page as it appeared on 2025-11-15T05:03:37.446+0000.
Icebergの人気記事 48件 - はてなブックマーク

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 48件

新着順 人気順

Icebergの検索結果1 - 40 件 / 48件

Icebergに関するエントリは48件あります。 データawsiceberg などが関連タグです。 人気エントリには 『Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮』などがあります。
  • Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮

    はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はテーブル仕様である Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest files

      Apache Iceberg とは何か - Bering Note – formerly 流沙河鎮
    • Apache Icebergにおける同時実行制御の仕組みと注意点 - 流沙河鎮

      はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ 同時書き込み時のシナリオパターン データ競合チェック なぜデータ競合のチェックが必要か? 主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類 データパイプライン設計時の注意点 まとめと宣伝 おまけ(ソースコードベースの流れ) はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。(デフォルトはseria

        Apache Icebergにおける同時実行制御の仕組みと注意点 - 流沙河鎮
      • GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます
        • 触ってわかるデータレイクハウス(Parquet, Iceberg, Trino)

          この記事は毎週必ず記事がでるテックブログ Loglass Tech Blog Sprint の79週目の記事です! 2年間連続達成まで残り27週となりました! 昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。 でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach

            触ってわかるデータレイクハウス(Parquet, Iceberg, Trino)
          • Amazon S3 Tables と Iceberg Tables on Amazon S3 のパフォーマンス比較 #AWSreInvent | DevelopersIO

            AWS事業本部コンサルティング部の石川です。 この記事は AWS Analytics Advent Calendar 2024 の 22 日目の記事です。 Amazon S3 Tables は、「クエリパフォーマンスが最大 3 倍高速になり、1 秒あたりのトランザクション数が最大 10 倍」と言われています。本日は、「Amazon S3 Tables vs Iceberg Tables on Amazon S3 」と題して、パフォーマンスを比較したいと思います。 どのようなクエリが速くなるのか 具体的にどのようなクエリが速くなるのかについて考察します。 セルフマネージドテーブルストレージと比較すると、クエリパフォーマンスが最大 3 倍高速になり、1 秒あたりのトランザクション数が最大 10 倍になる 引用: Amazon Web Services ブログ の Amazon S3 の新しいテ

              Amazon S3 Tables と Iceberg Tables on Amazon S3 のパフォーマンス比較 #AWSreInvent | DevelopersIO
            • レイクハウスとはなんだったのか?

              赤煉瓦倉庫勉強会第2回「レイクハウスって結局何なのっていいました?じゃあ真のレイクハウスをみせてやりますよ!」 での発表資料です!

                レイクハウスとはなんだったのか?
              • キャディでの Apache Iceberg 活用事例 - CADDi Tech Blog

                こんにちは。Drawer Growth グループの江良です。 キャディが「製造業 AI データプラットフォーム」の構想を打ち出してから半年ほどが経ちました。 caddi.com このコンセプトの実現にあたっては、「AI」の部分だけでなく、「データ」の部分を支える仕組みづくりも重要になってきます。今回は、私が携わっているプロジェクトで導入した Apache Iceberg とその使いどころについて紹介したいと思います。 製造業におけるデータ活用の難しさ 本題に入る前に、まずは背景について少し補足します。 (Iceberg の話だけを読みたい人は「採用したアーキテクチャ」のところまでスキップしてください。) モノづくり産業における会社には多種多様なデータが存在する 製造業の世界で登場するデータにはさまざまなものがあります。 詳しくは キャディ、製造業AIデータプラットフォームとしての、第二章。

                  キャディでの Apache Iceberg 活用事例 - CADDi Tech Blog
                • ReproでのApache Icebergの技術検証結果 - Repro Tech Blog

                  Reproでチーフアーキテクトとして仕事をしている橋立(joker1007)です。 今回、本番環境への導入を視野に入れてApache Icebergを実際に業務データで検証しました。 この記事ではその検証内容と結果について共有したいと思います。 Icebergについて IcebergはOpen Table Formatと呼ばれているデータフォーマットの一つで、クラウド環境で効率よくデータ分析を行うためのデータフォーマットとして開発が進んでいます。 Icebergの様なOpen Table Formatは単一のファイルによるデータ構造ではなく、複数のファイルとそのメタデータの管理機構が合わさったフォーマットになっており、全体のファイル構造が合わさって一つのテーブルとして扱えるというのが特徴です。 以前、Reproで検証したApache HudiもOpen Table Formatの一つですが

                    ReproでのApache Icebergの技術検証結果 - Repro Tech Blog
                  • Apache Iceberg: The Definitive Guide 輪読会まとめ

                    はじめに こんにちは!ナウキャストのデータエンジニアのけびんです。 今年の6月に Iceberg Table が Snowflake の機能として GA したのは記憶に新しいかと思います。 自分もこの時から Iceberg に興味を持ちブログを書いたりしました。 そんな中、ちょうど良いタイミングで Apache Iceberg: The Definitive Guide が2024年5月に出版されており、 SnowVillage の有志の方たちと輪読会という形で読み進めておりました。11月末に無事に全体を読み終えましたので、今回は各章について簡単に紹介していきたいと思います。 Part1: Fundamentals of Apache Iceberg Part1 は Apache Iceberg の基礎、ということで、 Iceberg が生まれてきた歴史や、そのアーキテクチャや仕組み、カタ

                      Apache Iceberg: The Definitive Guide 輪読会まとめ
                    • Apache Iceberg を学び�Amazon S3 Tables を活用しよう

                      「Apache Icebergと超えていくデータレイクの限界 -S3とSnowflake活用事例-」登壇資料です

                        Apache Iceberg を学び�Amazon S3 Tables を活用しよう
                      • 世界最大の氷山「A23a」、南大西洋の島に衝突する恐れ

                        世界最大の氷山「A23a」がサウスジョージア島に向かっている可能性がある/Jean-Felix Fayolle/Zeppel/SIPA/Shutterstock (CNN) 世界最大の氷山「A23a」が今も移動を続けており、南極から北上して南大西洋のサウスジョージア島に向かっているのではないかとの懸念が示されている。 A23aは、南極のウェッデル海の海底に接地し30年以上とどまっていたが、海底との接地が緩むほど縮小したとみられている。海底から分離し海流に流された後、氷山は再び「テイラー柱」につかまった。テイラー柱は、海流が海底の山にぶつかることで生じる水の渦を指す。 英南極観測局の物理海洋学者アンドリュー・マイヤーズ氏によると、A23aは何カ月も海底の山のまわりを回転し「身動きが取れなくなっていた」という。 現在、氷山は海流に乗ってサウスジョージア島に向かって移動しているとみられる。 マイ

                          世界最大の氷山「A23a」、南大西洋の島に衝突する恐れ
                        • Apache Iceberg活用入門 オープンテーブルフォーマットによるデータレイク&データレイクハウス - インプレスブックス

                          ■著者 ●Tomer Shiran(トマー・シーラーン) Dremio の創業者兼最高製品責任者(Chief Product Officer)。Dremioはオープンなデータレイクハウスを提供し、企業がデータウェアハウスのコストや複雑さをロックインされることなく、クラウドで分析を実行できるようにする。Dremioの創業CEOとして、Tomerは4億ドル以上を調達し、世界の最大手企業、特にフォーチュン5の3社を含む数百の企業にサービスを提供する世界クラスの組織を築き上げた。Dremioの前には、ビッグデータ分析の先駆者であるMapRの4番目の社員であり、製品の最高責任者を務めた。また、MicrosoftやIBM Researchで多数のプロダクトマネジメントおよびエンジニアリングの役職を歴任し、数百万人のユーザーと数十万人の課金顧客を対象としたウェブサイトを創設。広範な業界トピックに関する成

                          • CPU使用率90%を超える高負荷がLNEのHive Metastoreで発生 Hive table formatの課題はApache Icebergで解消 | ログミーBusiness

                            2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで齋藤氏と尾野氏が「LINEデータプラットフォームにおけるApache Icebergの導入」というテーマで、データ処理とデータのインジェスチョンパイプラインについて紹介しました。まずはLINEで実施しているデータ処理について。 自己紹介と発表前半のアジェンダ齋藤智之氏:LINE Data Platform室の齋藤智之です。現在私は、データプラットフォーム開発組織のシニアソフトウェアエンジニアとして、研究開発や開発プロジェクトのリードをしています。今日の発表では、データプラットフォームを開発運用する中で直面してきた課題と、その解決に向けた取り組みの一部を紹介しようと思います。 発表は前半と後半の2部に分かれてい

                              CPU使用率90%を超える高負荷がLNEのHive Metastoreで発生 Hive table formatの課題はApache Icebergで解消 | ログミーBusiness
                            • 実践Apache Iceberg | 技術評論社

                              概要 Apache Icebergは、ストレージ上のファイル群を抽象化し分散クエリエンジンで扱うためのオープンな「テーブルフォーマット」です。本書では、データレイク構築に関する基本的な考え方やIcebergを使うことのメリットといった基本から、Sparkなどの各種分散クエリエンジンにおける実践的な活用方法、そして実運用のためのノウハウまで、豊富なハンズオンとともに解説。次世代のデータ基盤の構築・運用に関わるエンジニア必携の一冊です。 目次 [第1部]Apache Icebergの基本 第1章:データレイクの課題とApache Iceberg Icebergというテーブルフォーマット データレイクのコンセプト データレイクの構成要素 Iceberg登場以前のデータレイクの課題 Icebergによるデータレイクの課題解決 データ基盤におけるIcebergの役割 Icebergを導入する際の注意

                                実践Apache Iceberg | 技術評論社
                              • 氷山を穿つ - Apache Icebergに大量データを投入するTopic - - CADDi Tech Blog

                                こんにちは、柴犬がかわいい。Tech本部の前多です。 先日、弊社でApache IcebergとTrinoによる活用事例についての記事を上げました。 caddi.tech 記事では、Icebergへのデータ投入について次の記述がありました。 ユーザがアップロードしたCSVファイルをパースしてIcebergに保存する 図面の解析結果を一定間隔のバッチで受け取りIcebergに保存する 実際のところ、ファイルからIcebergへのデータ投入はサイズによっては困難なことがありました。 今回はIcebergへのデータ投入に関するTopicをお伝えします。 データ投入で発生した課題 私たちは、クエリエンジンとしてTrinoを採用しています。 データ投入の経路はCSVファイルしかないので、CSVファイルを解析して一行ごとにTrinoのInsert文を発行すれば十分だろうと考えていました。 また、Tri

                                  氷山を穿つ - Apache Icebergに大量データを投入するTopic - - CADDi Tech Blog
                                • 世界最大の氷山「A23a」が分裂、複数の巨大な塊に

                                  (CNN) 英国南極観測局(BAS)は3日、世界最大の氷山「A23a」の崩壊が急速に進み、複数の巨大な塊に分裂したと発表した。 A23aは、1986年に南極のフィルヒナー・ロンネ棚氷から分離。「世界最大の氷山」として観測が続けられており、崩壊前の重さは約1.1兆トン、面積は3672平方キロに及んでいた。 BASの専門家アンドルー・マイヤーズ氏はA23aについて「急速に崩壊して巨大な塊がはがれ落ち、そうした塊自体が米国立氷河センターの定義する大型氷河になっている」とCNNへの電子メールで指摘した。 A23aの面積は現在、約1700平方キロにまで縮小しているという。 A23aは30年以上の間、南極のウェッデル海の海底に座礁していたが、恐らく縮小が進んだために海底を離れて漂流を開始。2020年には海流に流されて渦流に巻き込まれ、一時的に動きが止まっていたが、24年12月に再び動き始めた。25年3

                                    世界最大の氷山「A23a」が分裂、複数の巨大な塊に
                                  • ベアメタルで実現するSpark&Trino on K8sなデータ基盤

                                    Trino Conference Tokyo 2023 https://techplay.jp/event/907388 #trinodb

                                      ベアメタルで実現するSpark&Trino on K8sなデータ基盤
                                    • Apache IcebergとCDCによるデータレイクハウス拡張 - CADDi Tech Blog

                                      こんにちは、 Drawer Growth グループの高藤です。先日、弊社の江良が活用事例として取り上げた Apache Iceberg の活用事例にあるよう、キャディでは Apache Iceberg を採用したデータレイクハウスの構築を行っています。前回に引き続き今後計画していることについて紹介したいと思います。 先日の江良がまとめた活用事例にもある通り、現在構築しているデータレイクハウスでは、お客様が手元にある構造化データに対して、お客様自身でデータをアップロードし CADDi Drawer 内で利用できるようにしています。データレイクハウスを通じて、お客様固有のデータを CADDi Drawer 内で大量に扱うことができるようになりました。 その一方で、まだまだ解決しないといけない課題もあります。前述の記事のなかでも触れられているとおり、「全社を横断したプラットフォーム」への取り組み

                                        Apache IcebergとCDCによるデータレイクハウス拡張 - CADDi Tech Blog
                                      • AWSにおけるHudi/Iceberg/DeltaLakeの使いどころと違いについて

                                        • 世界最大の氷山、ペンギンの繁殖地に接近 多数死ぬ恐れも

                                          【1月25日 AFP】世界最大かつ最古の氷山「A23a」が南極からゆっくり移動しており、このままでは南大西洋の重要な野生生物の繁殖地、英国領サウスジョージア島に衝突する可能性があるとして科学者が警鐘を鳴らしている。1986年に南極の棚氷から分離したA23aの面積は約3500平方キロで、英国の大都市圏グレーター・ロンドンの2倍以上に相当する。 英南極観測局の物理海洋学者アンドリュー・マイヤーズ氏は24日、AFPに対し、衛星画像によると、A23aは従来の「メガバーグ」と呼ばれる巨大氷山と異なり、南極海を進みながら崩れている様子はないと説明。 正確な進路を予測するのは難しいが、現在の海流から判断すると、2〜4週間でサウスジョージア島周辺の浅い大陸棚に到達するとみられるが、その後何が起こるかは予測がつかないと述べた。 場合によっては、大陸棚に漂着せず、サウスジョージア島を越えた開水域に運ばれるか、

                                            世界最大の氷山、ペンギンの繁殖地に接近 多数死ぬ恐れも
                                          • Amazon S3 Tablesにデータを投入してAthenaとRedshiftからクエリしてみた - Qiita

                                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事はBeeX Advent Calendar 2024の5日目の記事です。 遅刻しました。(12/5投稿予定だった) ※本記事には一部AWSのプレビュー機能も含まれており、一般公開された際には記事の内容から変更される可能性がありますので、認識の上ご覧ください。 はじめに 先日アメリカのラスベガスで開催された AWS re:Invent 2024では多くのAWSアップデートが発表されました。 本記事ではその中でもAmazon S3 Tablesにフォーカスして検証してみましたので、記録として書いていきます。 ざっくりどんなことをする

                                            • Amazon S3 Tablesを整理してみた - Qiita

                                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                Amazon S3 Tablesを整理してみた - Qiita
                                              • Apache Iceberg– なぜ今、Icebergなのか? - Qiita

                                                Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 本記事では、Apache Icebergがどのようなサービスなのか、そして導入することでどのようなメリットが得られるのかを、データ基盤初心者の方にも分かりやすく解説します。これを読めば、今後データ基盤を新たに作る場合や、既存の基盤にApache Icebergを導入する際の全体像がイメージできるはずです。 話さないこと Apache Icebergの具体的なアーキテクチャや技術的仕組み Apache Icebergって何? Apache Icebergとは、 データレイクに置かれたファイルをテーブルのように扱う技術のオープンソ

                                                • [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO

                                                  データアナリティクス事業本部のコンサルティングチームの石川です。AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析!」というテーマにて登壇しました。セッション動画と資料が公開されました。 セッション概要 コンサルティングチームでは、Amazon RedshiftやSnowflakeと「dbt」を用いたサーバレスなデータプラットフォームである「dbt-template」ソリューションと、コンサルティングサービスをご提供しております。今回は、「dbt-template」のAmazon Athena対応で得られた技術調査の結果と、テーブルフォーマット「Iceberg」と「dbt」対応について、ちょっぴりDiveDeepしました。 前半は、2023/04にGAになった現在イチ

                                                    [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO
                                                  • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

                                                    こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、db テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

                                                      AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
                                                    • IcebergテーブルをDuckdbで手軽に読み取ろう

                                                      はじめに データエンジニアをやっておりますTaichiです。 最近Apache Icebergという単語をよく耳にするようになりました。 Icebergの処理エンジンといえば Apache Spark Apache Flink Trino などでしょうか。このラインナップ、構築/運用するのは結構ハードなものが多いと思いませんか? 例えば、私のプロジェクトではSparkを使った構成でデータ処理を実施していますが、以下のような具体的な課題に直面しました。 Apache Hadoopのクラスタ構築作業や、Sparkを動かすために専用の記述(PySpark)が必要になる等、一定の学習が必要。 PySparkの記述の仕方によっては、性能が全然出ずにレスポンスが返ってこなかったり、OutOfMemoryになる場合があり、かつ解析やチューニングの難易度が高い。 クラウド前提であれば、マネージドHadoo

                                                        IcebergテーブルをDuckDBで手軽に読み取ろう
                                                      • TrinoとIcebergでログ基盤の構築 | さくらのナレッジ

                                                        はじめに 2023年10月5日(木)にTrino / Presto Conference Tokyo 2023 (Online)が開催されました。本記事はイベントにて発表した内容をご紹介します。 社内の監視サーバについて さくらインターネットでは現在社内の各チームでPrometheus, Elastic Stack, Lokiなどの監視基盤を個別に運用しています。この状態では運用負荷が大きいためSRE室でログ基盤を提供することにより、運用の手間を減らすことや運用レベルを底上げしてコスト削減ができるのではないかと検討しています。既存のOSSでの運用も行ってみたものの、マルチテナント提供・ライセンス体系の問題など課題があったことからTrinoとIcebergでの開発を始めました。 Icebergとは Icebergはビッグデータ・データレイクを構築するためのストレージフォーマットです。データの

                                                          TrinoとIcebergでログ基盤の構築 | さくらのナレッジ
                                                        • AJA SSP が Apache Iceberg と AWS Glue Data Catalog でペタバイトスケールのデータ基盤の柔軟なクエリエンジンの選択とクエリの高速化を実現 | Amazon Web Services

                                                          Amazon Web Services ブログ AJA SSP が Apache Iceberg と AWS Glue Data Catalog でペタバイトスケールのデータ基盤の柔軟なクエリエンジンの選択とクエリの高速化を実現 ※ この記事はお客様に寄稿いただき、AWS が加筆・修正したものとなっています。 株式会社 AJA は、株式会社サイバーエージェントのグループ会社として、ABEMA をはじめとしたプレミアム動画メディア向けの広告マーケットプレイス「AJA SSP」を提供しています。さらに、広告主向けプラットフォーム「AJA DSP」や、動画の考査を最短かつ簡便に行える「AJA Video Platform」、地上波テレビ CM の視聴データを活用しコネクテッド TV へ効果的に広告配信を行う「インクリー」、地上波テレビ CM の広告効果をデジタル広告と同一指標で評価・可視化できる

                                                            AJA SSP が Apache Iceberg と AWS Glue Data Catalog でペタバイトスケールのデータ基盤の柔軟なクエリエンジンの選択とクエリの高速化を実現 | Amazon Web Services
                                                          • 【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - Bering Note – formerly 流沙河鎮

                                                            この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに Bilibiliは中国最大級の動画共有サイトです。私たちはBilibiliのbig data infrastructureチームとして、2021年にApache Iceberg1を使用したlake-warehouseプラットフォームを構築するためのプロジェクトを開始しました。このプラットフォームは、主にOLAP分析シナリオに焦点を当てています。 このプロジェクトの前は、当社のdata warehouseはApache Hive2をベース

                                                              【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - Bering Note – formerly 流沙河鎮
                                                            • Apache Iceberg: An Architectural Look Under the Covers

                                                              Data lakes have been built with a desire to democratize data — to allow more and more people, tools, and applications to make use of more and more data. A key capability needed to achieve this is hiding the complexity of underlying data structures and physical data storage from users. The de facto standard to achieve this has been the Hive table format, released by Facebook in 2009 that addresses

                                                                Apache Iceberg: An Architectural Look Under the Covers
                                                              • ブログ | Cloudera

                                                                Cloudera は、NVIDIA AI Enterpriseプラットフォームの一部であるNVIDIA NIMマイクロサービスを利用したCloudera AI Inferenceサービスの一般提供を発表いたしました。これによって、企業の AI 導入の加速が可能になります。このサービスは、最適化されたさまざまなAIモデルをサポートし、シームレスでスケーラブルなAI推論を可能にします。 今すぐ読む

                                                                  ブログ | Cloudera
                                                                • [レポート] 『AI時代を見据えたANAグループのデータ戦略:Iceberg導入のリアルと今後の展望』 #SWTTokyo2025

                                                                  株式会社truestar プロダクト開発部所属のしんやです。 当エントリでは、2025年09月11日(木)、12日(金)にグランドプリンスホテル新高輪 国際館パミールで開催された『Snowflake World Tour TOKYO 2025』のセッション『AI時代を見据えたANAグループのデータ戦略:Iceberg導入のリアルと今後の展望』の参加・聴講内容をレポートします。 セッション概要 公式サイトのセッションタイムテーブルによるセッション概要は以下の通りです。 セッションレポート ここからは本セッションの参加・聴講内容をレポートします。 1. ANA's データマネジメント 各種情報紹介 登壇者自己紹介(北原氏) ANAグループの歴史と数字の紹介 ANAグループの組織紹介 ANAグループの「データの民主化」に取り組むにあたり、データマネジメント構想を掲げ、3つの柱で推進してきた。本日

                                                                    [レポート] 『AI時代を見据えたANAグループのデータ戦略:Iceberg導入のリアルと今後の展望』 #SWTTokyo2025
                                                                  • ログパイプラインの4つの問題にLINEはどう立ち向かうか シンプルかつ拡張性のあるアーキテクチャを叶える、Icebergという選択肢 | ログミーBusiness

                                                                    2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで齋藤氏と尾野氏が、「LINEデータプラットフォームにおけるApache Icebergの導入」というテーマで、データ処理とデータのインジェスチョンパイプラインについて共有しました。ここからは、データのインジェスチョンパイプラインにおける課題と、解決に向けた取り組みについて。前回はこちらから。 自己紹介と後半のアジェンダ尾野健氏:ここからはスピーカーが代わります。尾野健と言います。Data Engineering1 teamに所属していて、LINEには2019年に入社しました。現在はインジェスチョンパイプラインを開発中です。 後半のアジェンダです。現在のログパイプラインの概要、そのログパイプラインが抱える問題、

                                                                      ログパイプラインの4つの問題にLINEはどう立ち向かうか シンプルかつ拡張性のあるアーキテクチャを叶える、Icebergという選択肢 | ログミーBusiness
                                                                    • Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services

                                                                      AWS Big Data Blog Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started AWS Glue is a serverless, scalable data integration service that makes it easier to discover, prepare, move, and integrate data from multiple sources. AWS Glue provides an extensible architecture that enables users with different data processing use cas

                                                                        Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services
                                                                      • Apache Iceberg の table を near real time で更新する

                                                                        Apache Iceberg の table を near real time に、つまり高頻度で更新するということをやってみた。 Apache Iceberg とは#Apache Iceberg (以下 Iceberg) は分散ファイルシステムやクラウドストレージ上の table format であり、Apache Hudi や Delta Lake と並んで data lake や lakehouse architecture で用いられる。 特徴的なのは table とデータ実体 (Parquet, Avro など) の間に metadata file, manifest list, manifest file の抽象的なレイヤーがあり、ファイル単位で table の状態を track できること。 これにより強い isolation level、パフォーマンス、schema evo

                                                                          Apache Iceberg の table を near real time で更新する
                                                                        • Apache Iceberg Catalog選択のポイント

                                                                          OTFSG Tokyo Meetup #2の登壇資料です

                                                                            Apache Iceberg Catalog選択のポイント
                                                                          • 【資料公開】Iceberg で Amazon Athena をデータウェアハウスぽく使おう #midosuji_tech | DevelopersIO

                                                                            データアナリティクス事業本部インテグレーション部機械学習チーム・新納(にいの)です。 2024/6/12にクラスメソッド大阪オフィスで開催された勉強会、Midosuji Techにて「Iceberg で Amazon Athena をデータウェアハウスぽく使おう」というタイトルで登壇をしました。ご参加いただいた皆様、ありがとうございました!ワイワイガヤガヤタイムでもたくさんのご質問をいただき、楽しい時間を過ごすことができました! 本エントリでは登壇資料と内容のまとめをお届けします。 スライド 内容まとめ Icebergの概要と、その特徴の中から特にSchema Evolutionとパーティション管理の便利さをお話ししました。 テーブルフォーマットとは Icebergはテーブルフォーマットのひとつです。テーブルフォーマットについて順を追って説明します。 データレイクはデータファイルをストレー

                                                                              【資料公開】Iceberg で Amazon Athena をデータウェアハウスぽく使おう #midosuji_tech | DevelopersIO
                                                                            • Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO

                                                                              AWS事業本部コンサルティング部の石川です。Amazon Athena は、INSERTなど一度に100パーティションを超える書き込みができません。ある時、「あれ、100パーティション超えてるやん」って事があり、それをきっかけに、何ができて何ができないのか、悶々と検証した結果、100パーティションの壁を超える方法をご紹介したいと思います。 先に結論 100パーティション超えたい場合は、Icebergテーブルフォーマとを用いて、パーティションの指定をbucket(100, <指定したいカラム名>)とする。 bucket(100, <指定したいカラム名>)は、ハッシュに基づき100のパーティションに分類されるため、パーティション内ではスキャンが発生する この方法を使用すると処理時間が長くなる傾向があり、バーティション数によっては、100パーティションの制限とは異なる理由で、エラーになる可能性が

                                                                                Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO
                                                                              • OTFSG Tokyo Meetup #2 で「Kafka ConnectのIceberg Sink Connector」をテーマに発表してきた - MicroAd Developers Blog

                                                                                マイクロアドの京都研究所からリモートで働いているインフラ開発ユニットの永富 id:yassan0627 です。 3/1に開催されたOpen Table Format Study GroupのMeetupの第2回目にて、「Kafka ConnectのIceberg Sink Connector」をテーマに話してきました。 今回は、その紹介です。 otfsg-tokyo.connpass.com Open Table Format Study Group(OTFSG) について 私の発表について Kafka Connectとは Iceberg Sink Connectorとは お試し環境について 私以外の発表について 最後に Open Table Format Study Group(OTFSG) について Open Table Format Study Groupは、以下を目的とする勉強会で

                                                                                  OTFSG Tokyo Meetup #2 で「Kafka ConnectのIceberg Sink Connector」をテーマに発表してきた - MicroAd Developers Blog
                                                                                • Icebergテーブルの内部構造について - やっさんメモ

                                                                                  この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                                                                                    Icebergテーブルの内部構造について - やっさんメモ

                                                                                  新着記事