本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Podcast版はこちらです。
Data Engineering Newsの公開時にメール通知をご希望の方は、こちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、海藤公紀、鈴木大介、河野浩明、片貝桃子、西山徹、廣瀬智史 |
Google BigQueryのニュースまとめ
パイプ構文が一般提供開始されました
パイプ構文はパイプ記号(|>)を使って処理を記述します。
標準の構文とは異なり、フィルタリングや集計、結合などを任意の順番で任意の回数記述することができるためアドホックな分析などに活用できます。
Pythonユーザ定義関数(UDF)がプレビューになりました
Python UDFではPyPIからのライブラリのインストールや外部サービスの呼び出しが可能なため、複雑かつ柔軟な処理の実装が可能です。
次の生成AI関数がプレビューになりました
これらの関数を使用することでGeminiによる出力を指定のスキーマに従わせることができるようになります。GENERATE_TABLE関数は出力をテーブル形式で生成します。output_schema引数を指定することで出力されるスキーマを指定することも可能です。
この関数を使うとJSONで出力された結果をパースしてテーブル形式にするといった手間が不要になります。
- AI.GENERATE_TABLE
- AI.GENERATE
- AI.GENERATE_BOOL
- AI.GENERATE_INT
- AI.GENERATE_DOUBLE
マテリアライズド・ビューのスマートチューニングがベーステーブルと同じプロジェクト内でサポートされるようになりました。
スマートチューニングは発行されるクエリがマテリアライズド・ビューで対応可能であればマテリアライズド・ビューを自動的に使用することでクエリパフォーマンスの向上とコスト削減を行う機能です
これまではスマートチューニングが適用されるためにはベーステーブルとマテリアライズド・ビューが同一データセットに存在する必要がありましたが、適用範囲が同一プロジェクトに広がりました
BigQuery data preparationが一般提供開始されました
Gemini がテーブル内容とスキーマを解析し、データのクレンジングや変換などのステップを自動で提案します。data preparationを使うとデータの前処理に費やす時間を大幅に短縮することができます。
本章の執筆者:今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Terraform Provider for Snowflake v2が一般提供開始されました
Snowflakeリソース(ウェアハウス、データベース、スキーマ、テーブル、ロール、権限など)をInfrastructure as Code (IaC)として管理するためのTerraform Provider for Snowflakeのバージョン2.0.0が2025年4月23日に一般提供開始されました 。これにより、Snowflake環境の構築、変更、バージョン管理を一貫したワークフローで自動化できるようになります。公式サポートはバージョン2.0.0以降が対象となります 。
詳しい内容はロードマップ・公式ドキュメント・GitHubリポジトリを参照ください。
合成データ生成機能が一般提供開始されました
元データの統計的特性を保持した合成データを生成する機能が一般提供となりました 。これにより、プライバシー規制やセキュリティ要件を遵守しながら、本番データに類似したデータをテスト、開発、分析、または共有目的で安全に利用できます。
機密データを公開するリスクなしに、リアルなデータでの作業が可能になるため、特に厳格なデータガバナンスが求められる環境でのデータ活用が促進されます。これは、データユーティリティとプライバシー保護という、しばしばトレードオフとなる要求を両立させるための重要な機能強化です。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Apache Iceberg™テーブル: Delta Lakeテーブルのサポートが一般提供開始されました
オブジェクトストレージに保存されているDelta Lakeテーブルから、読み取り専用のApache Iceberg™テーブルを作成する機能が一般提供となりました 。これにより、既存のDelta Lake形式のデータをSnowflake上で直接クエリし、効率的なレイクハウス分析を実行できるようになります。
また、この機能はIcebergメタデータも生成するため、他のIceberg互換エンジンとの相互運用性も向上させます。これは、オープンなデータフォーマットを活用し、特定のベンダーにロックインされることなくデータレイクハウスアーキテクチャを構築・運用したい企業にとって重要なステップです。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Apache Iceberg™テーブル: 外部管理テーブルの行レベル削除がプレビュー開始されました
外部エンジン(Snowflake以外)が更新、削除、マージ操作を実行する際に生成する位置削除ファイル (positional delete files) を使用して、外部管理されているIcebergテーブルの行レベル削除をサポートする機能がプレビューとして利用可能になりました 。これにより、Snowflakeの外部で管理されているIcebergテーブルに対しても、より柔軟できめ細かなデータ操作が可能となり、Icebergエコシステム全体でのデータ管理の一貫性が向上します。オープンフォーマットであるIcebergの機能強化は、データレイクハウス戦略の柔軟性を高める上で重要です。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Snowflake Native Appsのセッションデバッグ機能が一般提供開始されました
Snowflake Native Appsの開発者向けに、アプリケーションがコンシューマーアカウントにインストールされた際の動作をシミュレートし、デバッグできるセッションデバッグモードが一般提供されました 。
このモードでは、アプリ内のオブジェクトの表示や変更、アプリと同じ権限でのSQLステートメント実行が可能となり、開発・テストサイクルの効率化とアプリケーションの品質向上が期待されます。Snowflake Marketplaceなどを通じたアプリケーション提供が活発になる中で、開発者体験の向上はエコシステムの成長に不可欠な要素です。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Snowpark Python UDF/UDTFからのファイル書き込みが一般提供開始されました
Snowpark Pythonで作成されたユーザー定義関数 (UDF) やユーザー定義テーブル関数 (UDTF) 内から、ステージ上のファイルに直接書き込む機能が一般提供されました 。
これにより、関数内での複雑な処理結果や中間データをファイルとして出力・永続化することが容易になり、ETL/ELTパイプラインやデータ処理ワークフローの柔軟性が向上します。Pythonエコシステムとの連携を強化し、Snowflakeプラットフォーム上でのデータエンジニアリングや機械学習タスクにおけるPythonの活用をさらに促進できます。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Artifact Repositoryがプレビュー開始されました
Snowpark PythonのUDFやストアドプロシージャ内で使用するPythonパッケージ (PyPIから) を管理するためのArtifact Repository機能がプレビュー開始されました 。
これにより、依存関係の管理が簡素化され、特に複雑な依存関係を持つPythonベースのアプリケーション開発やデータ処理が容易になります。これまで手動でのパッケージ管理やステージへのアップロードが必要だった手間が削減され、Python開発者の生産性向上に貢献します。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Snowflake Egress Cost Optimizerが一般提供開始されました
Snowflakeから外部クラウドストレージ (AWS S3, Azure Data Lake Storage Gen2, Google Cloud Storage) へのデータ転送 (egress) コストを削減するための機能が一般提供されました 。この機能は、Snowflakeが管理する内部ステージを経由することで、より安価なネットワークパスを利用し、データ転送コストを最適化します。クラウド利用における想定外のコスト発生は多くのユーザーにとって懸念事項であり、特に大量データを外部連携する際のコストを抑制できるこの機能は、運用コスト管理の観点から大きなメリットを提供します。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Snowflake ML Jobsがプレビュー開始されました
Snowflake内で機械学習のトレーニングジョブや推論ジョブなどをスケジュール・実行・管理するためのSnowflake ML Jobs機能がプレビュー開始されました 。これにより、データ準備からモデルトレーニング、バッチ推論までの一連のMLワークフローをSnowflake上で完結させることがより容易になり、外部のMLプラットフォームへの依存を減らすことが可能になります。Snowflakeを単なるデータウェアハウスから、統合されたAI/MLプラットフォームへと進化させるための重要な一歩であり、データとコンピューティングリソースを一元管理することによる効率化が期待されます。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Cortex Search結果のメタデータシグナルを反映したブースト機能が一般提供されました
Cortex Searchクエリにおいて、メタデータシグナルに基づいて検索結果の関連性をブーストする機能が一般提供されました。これにより、特定のドキュメントプロパティ(例:ドキュメントの「いいね!」数やコメント数、タイムスタンプに基づく最新性など)を利用して検索ランキングを調整し、より目的に合致した検索結果を得ることが可能になります。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
その他アップデート(一部抜粋)
プログラムによるアクセストークンが一般提供になりました
プログラムによるアクセストークンが一般提供されました。これにより、ユーザーの認証情報を使用せずに、アプリケーションやサービスがSnowflakeに安全に認証できるようになり、自動化されたプロセスや外部ツールとの連携におけるセキュリティと管理性が向上します。OAuthクライアントを作成し、アクセストークンとリフレッシュトークンをプログラムで管理できます 。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Cortex Searchクエリでのリランキング無効化が一般提供開始されました
Cortex Searchクエリのセマンティックリランカーを無効にするオプションが一般提供されました。リランカーは通常、検索結果の関連性を向上させますが、特定のユースケースでは、キーワード検索のみの結果やカスタムランキングロジックを優先したい場合にこのオプションが役立ちます 。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
内部名前付きステージの自動更新・自動取り込みパイプがプレビューになりました
AWS上の内部ステージで、ディレクトリテーブルのメタデータの自動更新と、Snowpipeによるファイルの自動取り込みが可能になる機能がプレビュー開始されました 。これにより、データパイプラインの自動化とニアリアルタイム処理が促進されます。
詳しい内容はリリースノート(自動更新)・リリースノート(自動取り込み)を参照ください。
パブリックカスタムGitリポジトリURLのサポートが一般提供になりました
任意のパブリックGitリポジトリURL(例えば、自社ドメイン内のGitサーバーなど)を指定して接続できる機能が一般提供されました 。開発ワークフローにおけるコード管理やCI/CD連携の柔軟性が向上します。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Cortex AI ENTITY_SENTIMENT関数がプレビューになりました
テキスト内の特定のエンティティ(人、組織、製品など)に対する感情(ポジティブ/ネガティブ/ニュートラル)を分析する新しいCortex AI関数がプレビュー開始されました 。顧客フィードバック分析や市場トレンド把握など、非構造化データからのインサイト抽出能力が強化されます。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Data Clean Roomsのアップデート
クロスクラウド環境でのコンシューマ定義テンプレート利用サポートや、API経由でのプロバイダー実行ウェアハウス指定機能など、セキュアなデータ共有・コラボレーション環境であるData Clean Roomsに対して複数の機能強化が行われました 。
詳しい内容はリリースノート(4/24)・リリースノート(4/17)・リリースノート(4/10)を参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
AWSのニュースまとめ
Amazon Redshift Serverless Reservations の一般提供が開始されました
Serverless Reservations が発表され、Redshift Serverless でも一年単位の予約購入による割引が利用できるようになりました。予約対象は RPU で、契約期間は 1 年に固定されています。支払いモデルは「前払いなし」と「一括前払い」の 2 種類があり、それぞれオンデマンド価格に対して次の割引率が適用されます。
- 前払いなし : 20 % 割引
- 一括前払い : 24 % 割引
予約した RPU を超える使用量は、引き続きオンデマンド課金で自動スケールされるため、ピーク時の性能確保と年間コストの予測性を両立できます。
詳しい内容については AWS公式ブログ を参照ください。
AWS DMS Serverless で自動ストレージスケーリングが利用可能になりました
DMS Serverless タスクのストレージ上限が撤廃されました。これによりレプリケーション中に使用容量が閾値へ達すると、サービスが自動でストレージを拡張します。容量監視や手動プロビジョニングが不要になり、大量トランザクションや詳細ログを伴う移行でもタスク停止のリスクを抑制できます。
詳しい内容については AWS公式ブログ を参照ください。
Amazon S3 Express One Zone の価格が大幅に値下げされました
S3 Express One Zone の価格体系が改定されました。値下げ幅はリージョン共通で、代表的な項目は次のとおりです。
- ストレージ料金 : 31 % 引き下げ
- PUT リクエスト料金 : 55 % 引き下げ
- GET リクエスト料金 : 85 % 引き下げ
- データアップロード/取得転送料 : 60 % 引き下げ(全バイトに適用)
ミリ秒レイテンシーが必要な分析ワークロード向けに、高速ストレージをより低コストで利用できるようになりました。
詳しい内容については AWS公式ブログ を参照ください。
Amazon QuickSight で Amazon Q Embedded が一般提供開始されました
QuickSight ダッシュボードをアプリに埋め込み Generative BI 機能を提供できるようになりました。開発者は GenerateEmbedUrlForRegisteredUser 系 API を利用するだけで、Executive Summary などの生成AIベースの洞察を外部アプリに統合できます。
本機能は 米国東部 (バージニア北部)、米国西部 (オレゴン)、欧州 (アイルランド・フランクフルト・ロンドン)、アジアパシフィック (ムンバイ・シドニー)、カナダ (中部)、南米 (サンパウロ) の各リージョンで一般提供されています。
詳しい内容については AWS公式ブログ を参照ください。
Amazon QuickSight がハイライト機能をサポートしました
QuickSight 分析とダッシュボードにハイライト機能が追加されました。ビジュアル上のデータポイントを選択またはホバーすると 関連データが他のビジュアルで強調表示され 無関係なデータは淡色化されます 。パターンや外れ値を迅速に特定できるようになります。ハイライトはすべての QuickSight リージョンで利用可能で 分析設定またはシート設定から有効化できます。
詳しい内容については AWS公式ブログ を参照ください。
本章の執筆者: 海藤 公紀(Data Engineer)
Looker Studioのニュースまとめ
Lookerコネクタが機能強化されました
Lookerで使用しているBigQuery OAuth認証情報を使用してLookerコネクタを認証できるようになりました。これにより、Looker StudioでBigQueryデータを使用するLooker Exploreの表示と操作が可能になります。
新たなパートナーコネクタが追加されました
以下のパートナーコネクタがLooker Studioコネクタギャラリーに追加されました。
- Netsuite by Windsor.ai
- Simplesat by Simplesat
- Pinterest Ads by Porter Metrics
- Recharge by Supermetrics
- Hurma by Hurma
- Shopware 6 Order Analytics by SHOPSY
- Instagram Public by Windsor.ai
本章の執筆者:鈴木大介(Product Marketing Manager)
dbtのニュースまとめ
dbt Semantic Layer Python SDKがLazy loading for large fieldsをサポートしました
通常では、アプリケーションからメトリクスを呼び出すと、 dimensions、entities、measuresといった大きなネストしたデータを自動的に取得するため、応答速度が遅くなっていましたが、Lazy loading機能を有効にすることで、必要になった時点で明示的にリクエストした場合にのみ取得します。
dbt Semantic LayerがSSH Tunneling機能をサポートしました
dbt Cloudのデータ接続機能に、PostgreSQL、RedshiftへのSSH Tunneling(SSHトンネリング)のサポートが追加されました。この機能により、セキュアな環境内のデータベースにもdbt Semantic Layerから安全にアクセスできるようになりました。
詳細は公式ドキュメントを参照ください。
本章の執筆者:河野浩明(Data Engineer)
Tableauのニュースまとめ
Tableau Cloud – private Connect for AWSが利用可能になりました
※Tableau+もしくはEnterpriseプラン限定機能
Tableau Cloudから、AWS上にホストされたデータプロバイダーへ、インターネットを介さず専用のプライベート接続が可能になりました。
サポート対象:
- Athena
- Redshift
- Snowflake
AWS PrivateLinkを利用し、プライベートIP空間でプロビジョニングされるため、インターネット経由の通信を許可しないセキュリティポリシーにも対応可能です。
この接続はクラウド管理者がTCM(Tableau Cloud Management)で作成し、サイトに割り当てることができます。接続ごとにアドオンライセンスが必要であり、価格は別途問い合わせが必要です。
詳細は公式ドキュメントを参照ください。
Tableau Cloud – Release Previewでアップデート前の検証が可能になりました
※Tableau+限定機能
Tableau Cloudの今後のリリースへの早期アクセスが可能な「プレビューサイト」を作成できるようになりました。
TCM(Tableau Cloud Management)からサイトを作成することで、プレビュー専用環境にホストされます。プレビューサイトはリリースの約2週間前に更新され、サイト管理者に通知が届きます。
本番環境に影響を与えることなく、事前に新機能の動作確認や検証が可能になります。
詳細は公式ドキュメントを参照ください。
本章の執筆者:片貝桃子(Data Analyst)
Databricksのニュースまとめ
AI Gateway がカスタムモデルサービングエンドポイントをサポートしました
Mosaic AI Gateway がカスタムモデルエンドポイントをサポートするようになりました。カスタムモデルサービングエンドポイントで以下のガバナンスおよび監視機能を有効にできます
– アクセス権限と制限によるアクセス制御
– 推論テーブルを使用したモデル API へのデータ送信の監視と監査のためのペイロードロギング
– システムテーブルを使用したエンドポイントの運用使用状況とコストの監視
AI Builder: カスタム生成 AI テキストエージェント向けモデル仕様定義(Model Specification)がベータ版として提供開始されました
AI Builder は、一般的な AI ユースケース向けのドメイン固有の高品質 AI エージェントシステムを構築・最適化するためのシンプルなノーコードアプローチを提供します。ベータ版では、要約、分類、テキスト変換、コンテンツ生成などのカスタムテキストベースのタスク向けのモデル仕様定義をサポートしています。
詳細はこちら
AI Functions 向けに最適化されたサービングエンドポイントで Llama 4 Maverick が利用可能になりました
Llama 4 Maverick が Databricks がホストする基盤モデルとして利用可能になりました。AI Functions 向けに最適化されたバッチ推論エンドポイントで使用できます。
Databricks Assistant でドキュメント引用とフォローアップ提案が利用可能になりました
プロンプトやクエリへの回答として、Assistant が次のステップの提案とドキュメントからの引用を提供するようになりました。
Delta Sharing での行レベルセキュリティとカラムマスキングポリシーの厳格な適用が可能になりました
Delta Sharing では、共有データアセットが依存するテーブルに適用された行レベルセキュリティとカラムマスキングポリシーが、それらのポリシーがデータアセット共有前または共有後に適用されたかに関わらず、一貫して適用されるようになりました。これにより、共有データへのアクセス時にクエリの動作に違いが生じる場合がありますが、データアクセスがプロバイダーの意図するセキュリティ制御に常に準拠することが保証されます。
詳細はこちら
ストリーミングテーブルとマテリアライズドビューが Delta Sharing で共有可能にする機能がパブリックプレビューになりました
Delta Sharing を使用して、ストリーミングテーブルとマテリアライズドビューを共有できるようになりました。
Salesforceと Workday レポートコネクタが一般提供開始されました
Lakeflow Connect において、 Salesforce と Workday レポートコネクタが一般提供開始されました。
Google Analytics ローデータコネクタがパブリックプレビューになりました
Databricks Lakeflow Connect と Google BigQuery を使用して、Google Analytics からイベントレベルの生データを取り込むことが可能になりました。
DLT での ETL パイプライン開発用マルチファイルエディタが追加されました
DLT で新しいマルチファイルエディタを使用して、ETL パイプラインの開発とデバッグが可能になりました。マルチファイルエディタは、パイプラインアセットブラウザ内の一連のファイルとしてパイプラインを表示します。ファイルの編集、パイプライン設定の制御、および含めるファイルの選択を一箇所で行うことができます。
詳細はこちら
ジョブ内のタスクサブセットの実行が可能になりました
ジョブを手動でトリガーする際に、タスクのサブセットを実行できるようになりました。
ジョブの下流タスクでの SQL 出力の参照が可能になりました
動的な値を使用して、同じジョブ内の下流タスクで SQL タスクの出力を参照できるようになりました。各タスクは出力データの行を反復処理できます。
本章の執筆者:西山徹(Senior Product Manager)
TROCCOのニュースまとめ
コネクタ新規リリース: 転送元コネクタが追加されました
以下の転送元コネクタが追加されました。※サービス名順
詳しくはヘルプドキュメントをご参照ください。
- Backlog
- Confluence
- dbt Cloud
- Gitlab
- Freshdesk
- Freshsales
- Freshservice
- Mailchimp
- Miro
- PagerDuty
- Razorpay
- Trello
- Twilio
- zaico
- カオナビ
- マネーフォワード クラウド会計
コネクタ改善: 転送元App Store Connect APIにてAPI Endpointにカスタム変数を埋め込めるようになりました
API Endpointにカスタム変数を埋め込めるようになりました。
これにより、パスパラメーターにカスタム変数を埋め込むことで、動的にデータ取得することが可能になりました。
コネクタ改善: 転送元SFTPにて柔軟なエラーハンドリングが可能になりました
転送元SFTPにて、指定のパスにファイルが存在しなかった場合に転送を続行するかを選択できるようになりました。転送設定STEP1の詳細設定にて選択できます。
詳しくは、転送元 – SFTPを参照ください。
コネクタ改善: 転送元Boxにて柔軟なエラーハンドリングが可能になりました
転送元Boxにて、指定のパスにファイルが存在しなかった場合に転送を続行するかを選択できるようになりました。転送設定STEP1の詳細設定にて選択できます。
詳しくは、転送元 – Boxを参照ください。
マネージド転送設定改善: 転送元SalesforceのAPIバージョンを設定できるようになりました
マネージド転送設定の転送元SalesforceのAPIバージョンを設定できるようになりました。
これにより、作成される転送設定に一括でAPIバージョンを指定できるようになりました。
TROCCO API: 通知先APIが追加されました
TROCCO APIのエンドポイントとして、通知先が追加されました
TROCCO API: 転送設定APIの対応コネクタが拡充されました
転送設定APIの操作対象コネクタとして、以下のコネクタが追加されました。
- 転送元 – HTTP・HTTPS
- 転送元 – kintone
今回追加対象となったAPIエンドポイントは以下のとおりです。
Terraform Provider for TROCCO: 通知先へ対応しました
Terraform Provider for TROCCOが新たに以下のリソースに対応しました。
本章の執筆者:西山徹(Senior Product Manager)
COMETAのニュースまとめ
対話型AIアシスト機能のベータ版がリリースされました
対話型AIアシスト機能は、さまざまな職種のビジネスパーソンが活用できるよう、自然言語での対話を通じてデータを探索やSQL生成をサポートする機能です。今回のリリースでは、以下のユースケースをサポートしています。
アセット探索:
ユーザーが「売上データはどこにありますか?」「顧客情報を見たい」といった自然言語で要件を入力すると、AIが適切なデータアセット(データベースのテーブル、BIのダッシュボードなど)を提案します。専門知識がなくても、会話感覚でデータを見つけることができます。
SQL生成:
「先月の売上トップ10を教えて」「地域別の顧客数を集計して」といった分析ニーズを自然言語で入力すると、AIが必要なSQLを提案します。データベース言語の知識がなくてもデータ抽出できるようサポートします。
本章の執筆者:廣瀬智史(Staff Product Manager)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。