本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、海藤公紀、鈴木大介、河野浩明、西山徹、廣瀬智史 |
Google BigQueryのニュースまとめ
セット演算時にカラムを名前で照合できるBY NAME および CORRESPONDING 修飾子が一般提供開始されました
この修飾子を使うと、UNIONなどのセット演算時にカラムの位置ではなくカラム名でマッチさせることができるようになります。
JavaScript UDAFが一般提供開始されました
JavaScriptのユーザ定義集計関数(UDAF)を使うことでSQLでは実装が難しい複雑な集計関数を定義できます。
CREATE AGGREGATE FUNCTIONステートメントを使用してUDAFの作成が可能です
詳細は公式ドキュメントをご確認ください。
システム変数を使用してクエリを実行するロケーションを設定できる機能がプレビューになりました
クエリの最初にSET @@locationを使用することで、クエリを実行するロケーションを指定できます。
詳細は公式ドキュメントをご確認ください。
本章の執筆者:今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Snowflake Cortex Fine-Tuningが一般提供開始されました
Snowflake 内のデータを使用して一般的な大規模言語モデルをファインチューニングできるCortex Fine-tuningが一般提供されました。
ユーザーは事前学習済みの大規模言語モデルをより専門的なタスクに適応させるためのファインチューニングをSnowflake Cortexを用いて行うことができます。
プロンプトエンジニアリングや検索拡張生成 (RAG) 手法よりも優れたレイテンシと結果が必要な場合は、方法として考えられるかもしれません。
詳しい内容はリリースノートをご確認ください。
Snowflake Cortexの構造化出力が利用可能になりました
Snowflakeで大規模言語モデルによる出力はSnowflake Cortex COMPLETE関数を用いることで利用できますが、これにJSONスキーマに準拠した出力を行えるようになりました。
例えば推論結果をJSONとして出力し、その後の処理でJSON関数を用いてアクセスしたい場合、今まではプロンプトエンジニアリングによる強制をかける必要がありましたが、このリリースにより、Snowflake Cortex COMPLETE関数でresponce_formatを指定するだけで、JSONスキーマを強制化することが可能です。
各種ツールへの接続情報を生成する機能が利用可能になりました
Snowflakeの1つつまづくポイントとして、「アカウント識別子」や「接続情報ファイルの作成」など、Snowflakeと外部を接続する際に利用する値やファイルの設定が難しい、と感じることがあります。Snowflakeに慣れている方でも久々に設定する際は忘れてしまっている、ということが多々あります。
それを解決するために、外部アプリケーション、ドライバー、ライブラリ、サードパーティアプリケーションで指定されるそれら接続のための情報をSnowsightで表示してくれる機能が利用可能になりました。
これで大変だった「アカウント識別子」の生成方法も問題なくなり、Snowflake活用の障壁が下がりました。
詳しい内容についてはドキュメントをご確認ください。
その他アップデート(一部抜粋)
Snowflake管理の Apache Icebergテーブルのクローン作成が利用可能になりました
このリリースでは、Snowflake 管理の Iceberg Tableのクローン作成が利用可能になりました。
Snowflakeテーブルと同様にテーブルのクローンが行えるようになります。
詳しい内容についてはドキュメントをご確認ください。
マルチクラスター ウェアハウスのmax_cluster_count制限が増加しました
このリリースでは、MAX_CLUSTER_COUNT プロパティの上限を指定する際の柔軟性が向上しました。
MAX_CLUSTER_COUNTの上限は 10 に制限され、代わりに上限はウェアハウスのサイズに応じて異なるようになっています。
リリース時点現在では、10 を超える上限を指定するには、Snowsight からではなく SQL コマンドを使用する必要があります。
詳しい内容についてはリリースノートをご確認ください。
Snowflake Data Clean RoomsでSQL テンプレートでの外部および Apache Icebergテーブルのサポートされました
UI 内の SQL テンプレートで使用されるプライバシーポリシーが、外部テーブルと Apache Iceberg テーブルでサポートされるようになりました。
データセットに必要なプライバシー保護を適用しながら、データに対する自由形式のクエリを有効にしたいシナリオで、これらのオブジェクトを活用できるようになりました。
詳しい内容についてはリリースノートをご確認ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
AWSのニュースまとめ
Amazon Redshift Serverless でサブネットごとに必要な IP アドレス数が3つに削減されました
Amazon Redshift Serverless のワークグループを作成したり、Redshift Processing Units (RPU) を使用するワークグループを更新したりする際には、これまでサブネット内に少なくとも 9 つの空き IP アドレスが必要でした。今回の変更により、Enhanced VPC Routing (EVR) を有効にしない場合、Amazon Redshift Serverless を利用するために必要な空き IP アドレスの数が各 Amazon VPC サブネットにつき 3 つに緩和されました。これにより、サブネットの空き IP アドレスを気にする必要がなくなります。
詳細はAWS公式ページをご確認ください。
Amazon Q の Generative SQL が追加リージョンで利用可能になりました
Amazon Q の Generative SQL 機能が新たなリージョンで利用可能になりました。これにより、SQL クエリの自動生成機能を活用できるリージョンが拡大し、データ分析の効率が向上しました。
詳細はAWS公式ページをご確認ください。
本章の執筆者: 海藤 公紀(Data Engineer)
Looker Studioのニュースまとめ
Looker StudioのドキュメントがGoogle Cloudに移行されました
Looker StudioのドキュメントがヘルプセンターからGoogle Cloudに移行されました。詳細はドキュメントをご確認ください。
新しいグラフがパブリックプレビューになりました
新しいグラフのパブリック プレビューでは、新しいグラフスタイル、新しい既定のグラフ構成オプション、新しいグラフ設定が提供され、レポート作成者はデータのキュレーション方法とユーザーへの表示方法をより細かく制御できるようになります。改善点は以下の通りです。
- 新しいデフォルトのカラーテーマ
- 縦棒グラフや横棒グラフの角を丸くするなどの新しいデフォルトのグラフ設定オプション
- 折れ線グラフと時系列グラフの新しい線のグラデーション設定
- 散布図とバブルチャートのバブルの新しい透明度オプション
- 円グラフとドーナツグラフの新しいグラフパディング制御設定
- 新しいグリッド線のストロークとスタイル設定
- 新しい軸線の表示、ストローク、色の設定
- 新しい軸タイトルスタイル設定
- 新しい軸ラベルの回転設定
新たなパートナーコネクタが追加されました
以下のパートナーコネクタがLooker Studioコネクタギャラリーに追加されました。
- Refinaria by Totvs by TOTVS S.A.
- Prestashop Connector by SOLEDIS
- Magento by Catchr
- TikTok Ads CMMNDR Private by Kondiment Worldwide SRL
- GA CMMNDR Private by Kondiment Worldwide SRL
- IG Insights CMMNDR Private by Kondiment Worldwide SRL
- FB Insights CMMNDR Private by Kondiment Worldwide SRL
- Google Ads CMMNDR Private by Kondiment Worldwide SRL
- FB Ads CMMNDR Private by Kondiment Worldwide SRL
- TT Organic CMMNDR Private by Kondiment Worldwide SRL
- Piano Analytics by Piano
- BigCommerce by Catchr
- Snapchat Ads by Reporting Ninja
- Gravity Forms by Windsor.ai
- LinkedIn Company Pages by Adzviser
- LogicGate Risk Cloud® by LogicGate
本章の執筆者:鈴木大介(Product Marketing Manager)
dbtのニュースまとめ
タイムアウト設定が強化されました
Python SDKに新しいタイムアウトパラメータを追加し、接続/実行/切断の時間を個別に制御可能になりました。これにより長時間応答がない接続を自動切断する設定が可能になります。また、旧来のExponentialBackoff.timeout_msは非推奨化になりました。
詳細はドキュメントをご確認ください。
Azure DevOps連携のセキュリティが強化されました
Microsoftがサービスアカウント含む全ユーザーにMFAを義務化することに合わせて、Enterpriseプラン向けにEntra service principal appsという認証方式をAzure DevOpsとの連携がサポートしました。
従来、CIパイプラインの構築をdbt Cloudと連携して行う際にAzure DevOpsは一つの選択肢であり、認証方法として Service userを設定可能でしたが、MicrosoftのMFA義務化によりEntra service principal appsという方式に移行する必要があります。これは自動化されたシステムからMFA認証を突破するための、従来の認証よりもセキュリティの高い認証方式です。
ただこの変更は段階的に展開されるため、すぐに全ユーザーに影響するわけではありません。dbt Labsは、以下の対応を推奨しています:
- 自社のdbt Cloudアカウントで「Entraサービスプリンシパル」オプションが表示されるのを待ちます
- 表示されたら、既存の連携設定を新しい認証方式に移行します
- 既存のCI/CDパイプラインが問題なく動作することを確認します
詳細はドキュメントをご確認ください。
本章の執筆者:河野浩明(Data Engineer)
Databricksのニュースまとめ
自動リキッドクラスタリングがパブリックプレビューになりました
Unity Catalog管理テーブルで自動リキッドクラスタリングを有効にできるようになりました。この機能はデータのレイアウトを最適化し、クエリパフォーマンスを向上させるために、適切なクラスタリングキーを自動選択します。
Unity Catalogによる外部クラウドサービスへのアクセス管理が一般提供されました
Databricksからクラウドサービスへ安全に認証できる「サービスクレデンシャル」が一般提供(GA)されました。Python SDKおよびScala SDKもサポートし、Databricks Runtime 16.2以上で利用可能です。
SQLウェアハウス接続ノートブックでExcelダウンロードが可能になりました
SQLウェアハウスに接続されたノートブックのセル結果をExcelファイルとしてダウンロードできるようになりました。
Delta Live Tablesのsink APIがパブリックプレビューになりました
Delta Live Tablesのsink APIがパブリックプレビューとなりました。この機能を利用すると、パイプラインで変換したデータをKafkaやAzure Event Hubsなどのイベントストリーミングサービス、またはUnity CatalogやHiveメタストア管理の外部テーブルに書き込むことができます。
Structure Streaming: Asynchronous progress trackingが一般提供開始になりました
re:[SS]のAsynchronous progress trackingが一般提供(GA)されました。詳細はこちら
Structure Streaming: 初回スナップショット処理のイベント時間順序付けが一般提供開始されました
DeltaテーブルのStructure Streamingクエリを処理する際のwithEventTimeOrderオプションが一般提供開始されました。詳細はこちら
本章の執筆者:西山徹(Senior Product Manager)
TROCCOのニュースまとめ
Self-Hosted Runner(β版)がリリースされました
Self-Hosted Runner(β版)がリリースされました。
オンプレミス環境やプライベートネットワーク環境のサーバー上でTROCCOのジョブが実行できます。
2025/02/14現在、以下の転送元・転送先コネクターの組み合わせに対応しています。
対応するコネクターは今後順次拡大する予定です。
- 転送元
- 転送元 – HTTP・HTTPS
- 転送元 – MySQL
- 転送元 – PostgreSQL
- 転送元 – SFTP
- 転送先
- 転送先 – Google BigQuery
- 転送先 – MySQL
- 転送先 – PostgreSQL
現在、Self-Hosted Runner(β版)は、トライアルを希望のお客様にのみ提供しております。
機能の概要やトライアルのご依頼など、詳しくはSelf-Hosted Runner(β版)を参照ください。
コネクタ新規リリース: 転送元Zoho Books・転送元Stripe・転送元Squareコネクタがリリースされました
転送元Zoho Books・転送元Stripe・転送元Squareを追加しました。
詳しくは、以下を参照ください。
TROCCO API: APIコール数の上限値が変更(上限緩和)されました
APIコール数の上限が、下記の通り変更されました。
- 変更前
- 最大10,000コール/1日
- 最大100コール/15分
- 変更後
- 最大3,500コール/10分
上記変更に伴い、API実行時のレスポンスにAPIコール数に関する情報が含まれるようになりました。
詳しくは、APIコール数制限に関するレスポンスヘッダーを参照ください。
TROCCO API: エンドポイントが拡充されました
TROCCO APIのエンドポイントが以下の通り拡充されました。
転送設定API
リソースグループAPI
ラベルAPI
TROCCO API: 接続情報APIの対応コネクタが拡充されました
接続情報APIの操作対象コネクタとして、以下のコネクタが追加されました。
- Amazon S3接続情報
- Google Spreadsheets接続情報
- MySQL接続情報
- Salesforce接続情報
- PostgreSQL接続情報
TROCCO API: 転送設定APIの対応コネクターが拡充されました
転送設定APIの操作対象コネクタとして、以下のコネクターが追加されました。
- 転送元
- Google Spreadsheets
- MySQL
- Salesforce
- Snowflake
- 転送先
- Google Spreadsheets
- Salesforce
- Snowflake
Terraform Provider for TROCCO: 対応リソースが新規に追加されました
Terraform Provider for TROCCOが新たに以下のリソースに対応しました
- リソースグループ
- ラベル
Terraform Provider for TROCCO: 接続情報(trocco_connection)および転送設定(trocco_job_definition)の対応リソースが拡充されました
Terraform Provider for TROCCOが新たに以下のリソースに対応しました
- 接続情報
- Amazon S3接続情報
- Google Spreadsheets接続情報
- MySQL接続情報
- Salesforce接続情報
- PostgreSQL接続情報
- 転送設定
- 転送元
- Google Spreadsheets
- Salesforce
- Snowflake
- 転送先
- Google Spreadsheets
- Salesforce
- Snowflake
- 転送元
コネクタAPIアップデート: 転送元Apple Search Adsの利用APIがバージョンアップされました
転送時に使用するApple Search Ads Campaign Management APIのバージョンを、v4からv5へアップデートしました。
新バージョンについて、Apple Search Ads Campaign Management API 5を参照ください。
本章の執筆者:西山徹(Senior Product Manager)
COMETAのニュースまとめ
テーブル・ビューのDDLが連携されるようになりました
BigQueryやSnowflakeと連携したデータストアで、テーブルやビューのDDLが確認できるようになりました。DDLを利用したテーブルの再作成や、ビューの定義の確認が簡単に行えるようになります。
ビューのカラムリネージが確認できるようになりました
BigQueryやSnowflakeと連携したデータストアにおいて、ビューを定義するSQLを解析し、カラムリネージが生成されるようになりました。これまでのリネージ画面でビューのリネージを確認できるようになり、ビューの元になるテーブルがどのようなものか視覚的に確認ができます。
本章の執筆者:廣瀬智史(Head of of Product Management)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。