本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Podcast版はこちらです。
Data Engineering Newsの公開時にメール通知をご希望の方は、こちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、海藤公紀、鈴木大介、河野浩明、片貝桃子、西山徹、大内圭 |
Google BigQueryのニュースまとめ
BigQueryとBigQuery DataFramesでマルチモーダル分析、変換、ELTワークフローが利用可能になりました (プレビュー)
ObjectRef値により、非構造化データをBigQueryのテーブル内に統合し、ObjectRefRuntime 値を使用してこのデータを分析および変換ワークフローで処理します。
AI.GENERATE_TEXTなどの生成AI関数にObjectRefRuntimeを引数として渡すことができるため、BigQuery上で非構造化データに対する処理を簡単に行うことができるようになります。
実行グラフにクエリテキストセクションが追加されました (プレビュー)
BigQuery実行グラフでクエリテキストセクションを表示できるようになり、ステージのステップがクエリのどの部分に対応しているかを理解しやすくなりました。
実行プランの各ステージが元のSQLクエリのどの部分から生成されたのかを直感的に把握できるため、クエリのパフォーマンスチューニングが効率的に行えるようになります。
バッチ読み込みおよびエクスポートのためのクロスリージョン転送が一般提供開始されました
bq load、LOAD DATA、bq extract、EXPORT DATAステートメントを使用して、任意のリージョンまたはマルチリージョンから他の任意のリージョンまたはマルチリージョンへデータをロードまたはエクスポートできます。
これにより、データが保存されているリージョンとBigQuery処理を行うリージョンが異なる場合でも、データを効率的に移動できるようになります。
継続的クエリが一般提供開始されました
継続的クエリはBigQueryに到着したデータに対して継続的にSQL処理を実行する仕組みです。
継続的クエリを使うことによってストリーミング処理基盤を別途構築する必要なく、リアルタイムのデータ変換や集計が実現可能です。
Cloud Storageからのイベントドリブン転送が一般提供開始されました
Cloud StorageからBigQueryへデータを転送する際に、イベントドリブン転送を作成できるようになりました。イベントドリブン転送は、Cloud Storageバケット内のデータが変更または追加されたときに、転送実行を自動的にトリガーします
本章の執筆者:今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Snowflake Native Appsのリリースチャネル機能が一般提供開始されました
Snowflake Native Appsのプロバイダー向けに、アプリケーションのライフサイクル管理を支援するリリースチャネル機能が一般提供されました 。この機能により、プロバイダーは開発、テスト、UAT(ユーザー受け入れテスト)、本番といった各段階でアプリを異なるチャネルに公開できます。これにより、アプリケーションの新しいバージョンやパッチを、本番環境に展開する前に特定の消費者グループに対して段階的にテストし、安全にロールアウトすることが可能になります。
詳しい内容はリリースノートを参照ください。
オブジェクトの連絡先情報設定機能がプレビュー開始されました
データベースやテーブルなどのオブジェクトに連絡先情報を関連付けられる「Contacts for objects」機能がプレビューとして提供開始されました 。この機能を利用すると、各オブジェクトに担当者のメールアドレスや関連情報ページのURLなどをスキーマレベルのオブジェクトとして定義・紐付けることができます。これにより、データの発見性やコラボレーションが向上し、誰にアクセス権限を要求したり、質問したりすればよいかが明確になります。
詳しい内容はリリースノートを参照ください。
ユーザー定義タグの自動伝播が一般提供開始されました
ユーザー定義のオブジェクトタグがソースオブジェクトからターゲットオブジェクトへ自動的に伝播する機能が一般提供されました 。例えば、タグ付けされたテーブルからビューを作成した場合、そのビューにも自動的にタグが引き継がれます。手動でのタグ付けは大規模環境ではエラーが発生しやすく、管理も煩雑になりがちですが、この自動伝播機能により、データリネージ全体でガバナンス分類が一貫して適用されるようになります。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
外部管理Icebergテーブルの行レベル削除(位置削除ファイル使用)が一般提供開始されました
Snowflakeは、外部で管理されているApache Icebergテーブルに対する行レベル削除(位置削除ファイルを使用)の一般提供を開始しました 。この機能は4月にプレビューとして発表されていましたが 、今回の一般提供開始により、本番ワークロードでの利用が可能となります。ユーザーはAmazon S3などのオープンストレージにデータを保持したまま、Snowflakeの高性能なエンジンを利用してIcebergテーブルに対する更新、削除、マージといったDML操作をより柔軟かつ効率的に実行できるようになります。これまでIcebergのようなオープンフォーマットでは、行レベルの細やかな変更管理が課題となるケースがありましたが、この機能の成熟は、データレイクハウスアーキテクチャにおけるIcebergの活用を大きく前進させるものです。Snowflakeがオープンフォーマットへのコミットメントを強化し、データが物理的にどこに存在していても高性能な処理を提供するという同社の戦略を明確に示しています。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Icebergテーブルに対する検索最適化サポートが追加されました
Icebergテーブルに対してもSnowflakeの強力な検索最適化サービスが利用可能になりました 。ユーザーはALTER ICEBERG TABLE … ADD SEARCH OPTIMIZATIONコマンドを使用してこの機能を設定することで、Icebergテーブルに対する特定のポイントルックアップクエリや選択的なクエリのパフォーマンスを大幅に向上させることができます。Snowflakeのネイティブテーブルで既にその効果が実証されている検索最適化サービスをIcebergテーブルにも展開することで、データレイク上の大規模データセットに対しても、ネイティブテーブルと遜色のないクエリ応答性能を引き出す道が開かれます。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Icebergテーブルに対するQuery Acceleration Service (QAS) サポートが追加されました
Query Acceleration Service (QAS) がIcebergテーブルにも対応しました 。QASは、大規模なテーブルスキャンなどを伴うクエリの一部をSnowflakeが提供するサーバーレスなコンピュートリソースにオフロードすることで性能を向上させるサービスです。この機能がIcebergテーブルで利用可能になることで、QASが有効なウェアハウスを使用してIcebergテーブルをクエリする際に、スキャンパフォーマンスや挿入操作が高速化され、データレイク上の巨大なIcebergテーブルに対する分析性能が一層向上します。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
その他アップデート(一部抜粋)
Snowpark Python 3.12の一般提供が開始されました
Snowpark Python環境において、Python 3.12のサポートが一般提供開始されました 。これにより、開発者はSnowparkアプリケーション、UDF、ストアドプロシージャの開発において、Python 3.12の最新の言語機能、パフォーマンス改善、セキュリティアップデートなどを活用できるようになります。SnowflakeがPythonの最新バージョンへの追随を継続することで、開発者は現代的なPythonの機能やライブラリを利用でき、Snowflakeプラットフォーム上でのPythonベースのデータエンジニアリングや機械学習開発の魅力が一層高まります。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
AWSのニュースまとめ
Amazon Redshift RA3 クラスターが自動で AZ 再配置されるようになりました
Amazon Redshift RA3 プロビジョンクラスターの自動 AZ 再配置機能がデフォルトで有効化されました。
AZ 障害発生時にも同一エンドポイントのまま別 AZ へ自動移動することで高可用性が確保されます。アプリケーション側の修正や追加コストは不要です。
詳しい内容は こちら を参照ください。
AWS Glue Studio に単一ファイル出力や新フォーマット対応が追加されました
AWS Glue Studio で出力ファイル数を「1」に指定できる機能が追加されました。さらに、Excel 取り込みや XML・Tableau Hyper 出力、LZ4・Snappy・ZSTD など 7 種類の圧縮形式にも対応しました。ETL 処理の柔軟性と作業効率が向上しました。
詳しい内容は こちら を参照ください。
Amazon EMR で Spark のフル DML 操作が可能になりました
Amazon EMR の Spark ジョブで、Lake Formation 管理テーブルに対して CREATE・ALTER・DELETE・UPDATE・MERGE 操作が可能になりました。
IAM ロールにフルテーブル権限が付与されていればガバナンスと柔軟な ETL 開発が両立できるようになりました。
詳しい内容は こちら を参照ください。
Mountpoint for Amazon S3 がfstab 自動マウントに対応しました
Mountpoint for Amazon S3 が fstab に対応しました。EC2 インスタンスの起動時に S3 バケットを自動的にマウントでき、再起動後も接続が永続します。分析用 EC2 環境のセットアップがより簡単になりました。
詳しい内容は こちら を参照ください。
Amazon MSK の証明書自動ローテーションが無停止化されました
Amazon MSK プロビジョンクラスターにおいて、暗号化証明書の自動ローテーションがブローカーの再起動なしで実施できるようになりました。リアルタイムデータパイプラインの可用性が向上し、停止作業や深夜メンテナンスが不要となります。
詳しい内容は こちら を参照ください。
Amazon SageMaker Lakehouse に新たなネイティブ接続が追加されました
Amazon SageMaker Lakehouse で Oracle、Amazon DocumentDB、Microsoft SQL Server へのネイティブ接続が追加されました。これにより、オンプレミスや RDS のエンタープライズ DB から直接データを取り込み、Lakehouse 内で ETL や機械学習のワークフローを構築できるようになりました。
詳しい内容は こちら を参照ください。
本章の執筆者: 海藤 公紀(Data Engineer)
Looker Studioのニュースまとめ
グラフのプロパティパネルが改善されました
プロパティパネルの設定とスタイルタブが改善され、より整理され、ユーザーフレンドリーな流れでグラフをカスタマイズできるようになりました。
散布図で新しいグリッド線オプションが使えるようになりました
新しいグリッド線オプションを使用すると、個々の軸グリッド線の色と線種を設定できるため、左右のY軸グリッド線を区別しやすくなります。
この新しいグリッド線オプションは、モダンチャートが有効になっているレポートの散布図でのみ使用できます。
ピボットテーブルと表で、リンクを新しいタブで開くように設定できるようになりました
新しい「リンクを新しいタブで開く」オプションを使用すると、レポート編集者は、データに含まれるハイパーリンクを新しいタブで開くかどうかを指定できます。
「リンクを新しいタブで開く」オプションは、モダンチャートが有効になっているレポートのピボットテーブルと表でのみ使用できます。
BigQueryデータソースで新しいユーザー同意フローが利用可能になりました
「閲覧者」資格情報でBigQueryデータソースをクエリする際に、メールの認証情報がログに記録可能であることを確認するための新しいユーザー同意フローが利用可能です。
Lookerコネクタのフィルターが機能拡張されました
Lookerコネクタは、日付と時刻のフィルタータイプに加えて、テキストと数値のフィルタータイプにも「一致(詳細)」フィルター条件をサポートするようになりました。このサポートは、”conditionally_filter”パラメータと”always_filter”パラメータを使用してLookMLモデルで定義されているLookerデータソースからのフィルターに適用されます。
スケジュールで不適切な内容が制限されます
Looker Studioは現在、スケジュール作成および更新時に件名とメッセージフィールド内の不適切な可能性のある内容をチェックしています。フラグが立てられたコンテンツが削除されるまで、スケジュールを保存することはできません。
新たなパートナーコネクタが追加されました
以下のパートナーコネクタがLooker Studioコネクタギャラリーに追加されました。
- Sitechecker by Sitechecker
- Smart Copilot by Make Me Win
- Odoo Contacts AppiWorks by Jivrus Technologies
- Odoo Documents AppiWorks By Jivrus Technologies
- ChurchSuite by Growing Healthier Churches
- Lumar by Lumar
- Yandex Metrica by Windsor.ai
- Everflow by Windsor.ai
本章の執筆者:鈴木大介(Product Marketing Manager)
Looker Studio Proのニュースまとめ
コードインタープリターがデフォルトで有効になりました
Looker Studio Proサブスクリプションに関連付けられたGoogle Cloudプロジェクトで、LookerのGeminiとTrusted Tester機能の設定が有効になっている場合、会話型分析用のコードインタープリタがデフォルトで有効になりました。会話型分析用のコードインタープリタは、自然言語の質問をPythonコードに変換し、そのコードを実行して高度な分析と可視化を提供するプレビュー機能です。
適切な権限を持つLooker Studioユーザーは、ユーザー設定の下にあるLookerのGeminiページで有効化を管理できます。
本章の執筆者:鈴木大介(Product Marketing Manager)
dbtのニュースまとめ
dbt Fusionエンジンがリリースされました
Rustでフルスクラッチで開発された新しいdbtエンジンで、Snowflakeユーザー向けに
ベータ版が提供されています。
ネイティブなSQL理解能力
複数のデータベースの方言をネイティブに理解して、文字列の処理ではなくSQLの意味構造を深くします。
解析時にSQLの意味を理解することで、カラムレベルでの依存関係の把握やメタデータの自動展開などが容易になり、開発生産性や運用保守の一助となります。
state-aware orchestration
従来はstate管理によりモデルの差分を検知して変更モデル以降のみをビルドすることが可能でしたが、ソースの監視も行うことでCI/CDや定常ジョブに関わらず必要なモデルのみをビルドすることが可能になりました。これにより大幅なクエリコスト削減やdbtランタイムの実行時間の削減に寄与します。
また全てのジョブ同士でリアルタイムでのstate管理が共有可能になったことで、コンフリクトやモデルの上書きの防止など、複数人での開発体験も向上します。
パフォーマンスの飛躍的向上
Rustによる効率的なアーキテクチャにより、解析時間が最大30倍早くなります。
モデルの拡張に伴い、プロジェクトの肥大化が進んだとしても、従来はプロジェクトの分離などアーキテクチャ分離などでカバーしていたのに対して、開発やCI/CDの生産性に対してスケーラビリティを維持しやすくなります。
dbt VS Code拡張機能がリリースされました
dbt Fusionエンジンを使用する機能が入った拡張機能がVS Codeに登場したことで、ローカルでのdbt開発ワークフローでもFusionエンジンが使用可能になります。
詳しい内容はリリースノートを参照ください。
本章の執筆者:河野浩明(Data Engineer)
Tableauのニュースまとめ
今月の項目はいずれもRelease Previewです。
先月のアップデートにより追加された、Tableau+で提供される「リリースプレビューサイト」にて、先駆けて確認できる機能になります。
Tableau Cloud – [Release Preview] 管理者インサイトにパフォーマンスダッシュボードが追加されました
サイト管理者向け機能の「管理者インサイト」では、サイトの各種利用状況に関する複数のデータソースと、あらかじめ作成された「Starter workbook」が提供されています。
今回、このワークブックに「ダッシュボードの読み込み時間」を可視化するダッシュボードが追加されます。
読み込みに時間がかかっているダッシュボードを特定し、パフォーマンス改善に役立てることができます。
詳細は公式ドキュメントを参照ください。
Tableau Cloud – [Release Preview] 管理者インサイトのデータソース「Subscriptions」にタスク関連項目が追加されました
管理者インサイトで提供されるデータソース「Subscriptions」に、新たにスケジュールやタスクに関するフィールドが追加されます。
これにより、たとえば抽出タスクのスケジュール情報など、より詳細な運用状況の把握が可能になります。
詳細は公式ドキュメントを参照ください。
Tableau Cloud – [Release Preview] Tableau Cloudから「Tableau Semantics」に接続可能になりました
Tableau Semanticsは「Tableau Next*」に包含されるセマンティックモデルを管理する機能です。
公式ブログにて近日公開と言及されている、エコシステム統合機能(Tableau CloudのデータソースとしてTableau Semanticsに接続できるようになる)と考えられます。
なお、Tableau+限定の機能で、ヘルプドキュメントは未公開です。
* Tableau Nextとは
Tableau Nextは、Tableau+で提供される新しい分析プラットフォームです。
既存製品であるTableau CloudやDesktopと連携しながらも、Salesforce Data Cloudと深く統合された独立した製品として位置づけられています。
AIエージェント機能の日本語対応は2025年6月に予定されています。
その中核を成すコンポーネントのひとつが Tableau Semantics です。
引用元:Agentic Analytics: A New Paradigm for Business Intelligence
その他アップデートは公式リリースダッシュボードを参照ください。
本章の執筆者:片貝桃子(Data Analyst)
Databricksのニュースまとめ
AI Builder: ドメイン特化型チャットボット向けの機能としてKnowledge Assistantがベータ版として提供開始されました
従来よりベータ版として提供されていたAI BuilderにKnowledge Assistantが追加で提供されました。この機能を使用して、ドキュメントに対する質問応答チャットボットを作成し、専門家からの自然言語フィードバックに基づいて品質を向上させることができます。
詳細はこちら
Databricks Appsが一般提供開始されました
Databricks Appsが一般提供開始されました。この機能により、Databricksワークスペース内で直接インタラクティブなフルスタックアプリケーションを構築・実行できます。
アプリはマネージドインフラストラクチャ上で実行され、Delta Lake、ノートブック、MLモデル、Unity Catalogと統合されています。
Claude Sonnet 4およびClaude Opusモデルが Mosaic AI Model Servingで利用可能になりました
Anthropic Claude Sonnet 4およびAnthropic Claude Opus 4モデルが、Databricksがホストする基盤モデルとしてMosaic AI Model Servingで利用可能になりました。
これらのモデルは、Foundation Model APIのトークンごとの課金を使用して米国リージョンでのみ利用可能です。
Llama 4 Maverickがprovisioned throughput workloadsでパブリックプレビューになりました
Llama 4 MaverickがFoundation Model APIのprovisioned throughput workloadsでパブリックプレビューとしてサポートされるようになりました。
Predictive optimizationがすべての既存のDatabricksアカウントで有効化されました
2025年5月7日より、Databricksはすべての既存のDatabricksアカウントでデフォルトでPredictive optimizationを有効にしました。これはリージョンに基づいて段階的に展開され、2025年7月1日までに完了する予定です。予測最適化が有効になると、DatabricksはUnity Catalogマネージドテーブルのメンテナンス操作を自動的に実行します。
DatabricksノートブックでPythonシンタックスハイライトの設定が可能になりました
ノートブックのルートパスまたはホームフォルダに `pyproject.toml` ファイルを配置することで、ノートブックでPythonシンタックスハイライトを設定できるようになりました。`pyproject.toml` ファイルを用いて、ruff、pylint、pyright、flake8リンターを設定したり、Databricks固有のルールを無効にしたりできます。
この設定は、Databricks Runtime 16.4以上、またはClient 3.0以上を実行しているクラスタでサポートされています。
ユーザーの自動プロビジョニング(JIT)が一般提供開始されました
Just in time(JIT)プロビジョニングを有効にすることで、初回認証時に新しいユーザーアカウントを自動的に作成できるようになりました。
ユーザーがシングルサインオン(SSO)を使用して初めてDatabricksにログインすると、Databricksはユーザーのアカウントの有無を確認します。アカウントがない場合、DatabricksはIdPからの情報を使用して新規ユーザーアカウントを即座にプロビジョニングします。
本章の執筆者:西山徹(Senior Product Manager)
TROCCOのニュースまとめ
CDCデータ転送が提供開始されました
既存のCDC転送のアーキテクチャを刷新し、機能を強化したCDC機能の提供が開始されました。
MySQLからS3 Icebergへの転送をCDC形式で連携できます。
詳しくは、CDC(変更データキャプチャ)を参照ください。
Self-Hosted Runnerが提供開始されました
β版としてリリースしていたSelf-Hosted Runnerが、公式版として提供開始されました。
オンプレミス環境やプライベートネットワーク環境のサーバー上でTROCCOのジョブが実行できます。
詳しくは、Self-Hosted Runnerを参照ください。
転送元SAP S/4HANA ODataが提供開始されました
SAP S/4HANA ODataコネクタでは、SAP NetWeaver Gatewayが提供するOData V2サービス経由でSAPデータを取得・連携します。
詳しくは、SAP S/4HANA OData 接続情報・転送元 – SAP S/4HANA ODataを参照ください。
Connector Builder (β版)が提供開始されました
Connector Builder (β版)とは、ユーザー自身でコネクタを作成できる機能です。
TROCCOが対応していないサービスであっても、利用者が自ら対応コネクタを開発し、TROCCO上で利用できます。
詳しくは、Connector Builder (β版)を参照ください。
コネクタ新規リリース: 転送元コネクタが追加されました
以下の転送元コネクタが追加されました。
詳しくはヘルプドキュメントをご参照ください。
- GitLab
- Okta
- Asana
- スマレジ
- ラクロー
- クラウドサイン
コネクタ改善: 転送元S3にて最終更新時間を基準とした差分転送ができるようになりました
転送元S3にて、ファイルの最終更新時間を基準とした差分転送ができるようになりました。
これにより、差分転送の基準を最終パスまたは最終更新時間で選択できるようになりました。
コネクタ改善: 一部の転送元コネクタにて柔軟なエラーハンドリングが可能になりました
以下の転送元コネクタにて、指定のパスにファイルが存在しなかった場合に転送を続行するかを選択できるようになりました。
転送設定STEP1の詳細設定にて選択できます。
詳しくは各ヘルプドキュメントを参照ください。
コネクタ改善: 転送元SFTPがWindowsベースのSFTPサーバーに対応
転送元SFTPがWindowsベースのSFTPサーバーにも対応しました。
転送設定改善: ジョブのタイムアウト設定が可能になりました
これまでは一部のコネクターでのみ提供されていたタイムアウト設定ですが、アカウント内のすべての転送設定(転送ジョブ)に適用されるタイムアウト設定が実装されました。
タイムアウト設定を有効化することで、実行開始から一定時間経過した転送ジョブを自動停止できます。
これにより、意図しない処理時間枠の消費を防ぐことができます。
詳しくは、タイムアウト設定を参照ください。
転送設定改善: カラム定義のデータ型一括置換で対応するデータ型が拡充されました
転送設定のSTEP2 詳細設定で設定できるテンプレートETLについて、カラム定義のデータ型一括置換で対応するデータ型を拡充しました。
詳しくは、テンプレートETLを参照ください。
ワークフロー定義: ワークフローのカスタム変数ループ実行の内容を簡単に確認できるようになりました
これまで、タスクに設定したカスタム変数ループ実行内容を確認するには、タスク編集画面を開く必要がありました。
今回のリリースにより、ワークフローのタスクをクリックすると表示されるポップアップにて、カスタム変数ループ実行の内容を確認できるようになりました。
TROCCO API: 転送設定API・接続情報APIの対応コネクターが拡充されました
転送設定APIの操作対象コネクタとして、以下のコネクタが追加されました。
- 転送元 – Yahoo!検索広告
接続情報APIの操作対象コネクタとして、以下のコネクタが追加されました。
- Amazon Athena接続情報
お知らせ: Freeプランユーザーの利用可能な機能と処理時間枠が変更されました
2025年05月01日より、FreeプランでもTROCCO APIを利用できるようになりました。
TROCCO APIに関して、詳しくはTROCCO APIリファレンスを参照ください。
2025年05月01日より、Freeプランの処理時間枠が2時間となりました。
処理時間枠について、詳しくはジョブの処理時間枠を参照ください。
Terraform Provider for TROCCO: 転送設定・接続情報の対応リソースが拡充されました
Terraform Provider for TROCCOが新たに以下のリソースに対応しました。
- 転送設定(trocco_job_definition)
- 転送元 – kintone
- 転送元 – Yahoo!検索広告
本章の執筆者:大内圭(Senior Product Manager)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。ル通知をご希望の方はこちらのフォームよりご登録ください。