本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、海藤公紀、鈴木大介、河野浩明、西山徹、廣瀬智史 |
Google BigQueryのニュースまとめ
BigQueryメタストアがプレビューになりました
BigQueryメタストアは複数のデータソースにまたがるメタデータを一元管理するための機能で、Apache Icebergなどのオープンデータ形式をサポートしています。
BigQueryメタストアを使用すると、Sparkで作成したテーブルをBigQuery側でテーブルの再定義などを行わずに直接クエリすることが可能になります。
Vertex Model Garden、Hugging Faceのオープンモデルをベースにしたリモートモデル作成が一般提供開始されました
これらのリモートモデルでML.GENERATE関数を使用すると幅広い生成AIタスクを実行することができます。
本章の執筆者:今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Snowflake Cortex AI LLM Playgroundがプレビューになりました
Cortex AIのLLMプロンプト実験・検証環境として、コードによる環境構築が不要なPlaygroundであるSnowflake Cortex AI LLM Playgroundが利用可能になりました。
Cortex AIで利用可能な任意の2つのモデル間、または単一のモデルの異なる設定間で、テキスト生成を並べて比較することができます。
また、Snowflakeテーブルに簡単に接続でき、異なるプロンプト間での個々のレコードまたは複数のレコード (それぞれ別の行) の言語モデルの応答を比較できます。
詳しい内容についてはリリースノート・ドキュメントを参照ください。
Cortex Analystのカスタム指示機能がプレビューになりました
Cortex Analystに登録できるYAMLファイルについて、自然言語を利用したカスタム指示(命令)が付与できるようになりました。
Cortex AnalystではセマンティックモデルをYAML形式で登録することが可能ですが、その際に出力する内容について、自然言語を細かく指定することで、SQL生成時にこのカスタム命令を追加情報として利用することができます。
詳しい内容についてはリリースノート・ドキュメントを参照ください。
Snowflakeからアウトバウンド向けのプライベート接続機能が一般提供開始になりました
Snowflakeから外部関数や外部ステージのようにSnowflakeアカウント内の外にあるオブジェクトに対する通信について、インターネットを利用せず、プラットフォーム内のプライベート接続を利用して安全に通信が行えるようになりました。
それぞれAWS PrivateLink・Azure Private Linkを使用した通信が行えるようになり、下記のオブジェクトが対象となっています。
これは検証やPoCなどの段階で、1個人のみでデータの検証やモデル構築などを行いたい際に利用することができます。
- 外部関数
- 外部ステージ
- 外部ボリューム
- Snowpipe Automation
詳しい内容についてはリリースノートをご参照ください。
結合ポリシーが利用可能になりました
特定のテーブルやビューを閲覧する際に、JOINを利用したクエリを強制する結合ポリシーが利用可能になりました。
結合ポリシー単体では効力を発揮せず、テーブルやビュー作成時に結合ポリシーを指定することで、定義した特定のカラムとの結合を強制することが可能です。
条件付き結合ポリシーとして、ロールによるポリシー適用の有無や他の行アクセスポリシーや集約・投影ポリシーと併用することが可能です。
詳しい内容についてはリリースノート・ドキュメントを参照ください。
その他アップデート(一部抜粋)
Apache Iceberg Tableの自動リフレッシュ機能が一般提供開始になりました
Snowflake管理外の外部管理Apache Iceberg テーブルのメタデータの自動更新が行える機能が一般提供開始になりました。
この機能により、Snowflakeから外部Icebergカタログに対して、継続的かつサーバレスでポーリングを行い、メタデータを最新の状況に更新・同期させ続けることができます。
具体的には以下の外部カタログについてサポートされています。
- AWS Glue
- Apache Iceberg REST OpenAPI 仕様に準拠した REST カタログ
- Snowflake Open Catalog
こちらの機能はSnowflakeの統合機能を用いることで実現し、更新間隔などを指定することができます。
詳しい内容についてはリリースノートをご参照ください。
Tri-Secret Secureの外部キーストア統合が一般提供開始になりました
Snowflakeでは格納されたデータを、Snowflakeが管理するキーと顧客が管理するキーを組み合わせてSnowflakeデータを保護するための複合マスターキーを作成することができます。
この顧客管理のキーをAWS外部キーストア(AWS KMS)で生成し、専用のHSM(Hardware Security Module)に格納し、CCKM(CipherTrust Cloud Key Management)で一元管理・統合し、総合的に動作するため機能がGAになりました。
ビジネス上、セキュリティ要件が大幅に高いデータに対して、継続的なキーの入れ替えや管理を行うことができます。
詳しい内容についてはリリースノート・コミュニティ記事を参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
AWSのニュースまとめ
Amazon S3 メタデータの一般提供が開始されました
Amazon S3 メタデータの一般提供が開始されました。S3 Bucket に保存しているデータの種別をメタデータとして付与することで、必要なデータを発見しやすくなります。
S3 メタデータでは、以下のような情報を付与できます。
- システムメタデータ: サイズ、オブジェクトソースなど
- カスタムメタデータ: 製品 SKU、トランザクション ID、コンテンツ評価 など
さらに、Amazon Athena、Amazon Data Firehose、Amazon EMR、Amazon QuickSight、Amazon Redshift などの AWS 分析サービスと統合することで、S3 メタデータテーブルの可視化やクエリーが可能になります。
詳しい内容についてはAWS公式ブログを参照ください。
Amazon Redshift のゼロ ETL 統合に新しい SQL 機能が追加されました
- QUERY_ALL_STATES
- テーブルのすべての状態をクエリ可能になりました。更新中のデータも含め、継続的なデータ可用性が確保されます。
- TRUNCATECOLUMNS
- VARCHAR データが長さ制限を超える場合、自動的に切り捨てられるようになりました。これにより、レプリケーションエラーを防ぎ、データ取り込みが円滑になります。
- ACCEPTINVCHARS
- 無効な UTF-8 文字を指定した文字に置き換えることが可能になりました。これにより、非標準文字を含むデータの処理が容易になります。
詳しい内容についてはAWS公式ドキュメントを参照ください。
Amazon Redshift のゼロ ETL 統合で履歴モードがサポートされました
Amazon Redshift ゼロ ETL 統合に history(履歴) モード が追加されました。この機能により、コードを記述することなく、データベースの履歴データに基づいたデータモデリング手法の一つである Type 2 Slowly Changing Dimension (SCD 2) テーブル を作成できます。
また、Amazon DynamoDB、Amazon RDS for MySQL、Amazon Aurora MySQL、Amazon Aurora PostgreSQL のデータソースと重複したコピーを保持せずに、データ変更履歴を保存できるため、ストレージと運用の手間を削減しながら履歴データを扱うことが可能になります。
詳しい内容についてはAWS公式ドキュメントを参照ください。
Amazon S3 Tables が東京など5つの追加リージョンで利用可能になりました
Amazon S3 Tables が東京リージョンを含む 5つの AWS リージョン で利用可能となりました。S3 Tables は、ビルトインの Apache Iceberg サポート を備えたオブジェクトストアで、分析用のワークロードに最適化されています。
新たに 東京リージョン と 4つのヨーロッパリージョン (フランクフルト、アイルランド、ロンドン、ストックホルム) で利用できるようになりました。
詳しい内容についてはユーザーガイドを参照ください。
本章の執筆者: 海藤 公紀(Data Engineer)
Looker Studioのニュースまとめ
ピボットテーブルを任意にソートできるようになりました
ピボットテーブルはデータソースの任意の指標または計算フィールドでソートできるようになりました。
Lookerのフィールドカウント制限数が多くなりました
Lookerデータソースに接続されたテーブルチャートに、最大100個のディメンションと最大100個のメトリックを含めることができるようになりました。
Lookerデータソースに「Is Any」フィルター条件オプションが追加されました
以前は、Lookerデータソースの基盤となるLookMLで一部のフィルターパラメータの値が空白のままになっていると、Looker Studioは空白の値を誤って解釈していました。
「Is Any」フィルター条件オプションが追加されたことで、Looker Studioは空白のLookMLフィルター値を期待どおりに処理し、これらのフィルターにすべての値を許可するデフォルト条件を割り当てます。
本章の執筆者:鈴木大介(Product Marketing Manager)
dbtのニュースまとめ
dbt Cloud CLIにdbt invocationコマンドが追加されました
アクティブなinvocationを可視化し、長時間動いてるinvocationをデバッグしたり、リアルタイムでのアクティブなinvocationをモニタリングできるようになりました。
詳しい内容についてはこちらを参照ください。
dbt Cloudにダークモードが追加されました
ユーザー設定から3つのthemeを選べるようになりました。
詳しい内容についてはこちらを参照ください。
Semantic layerに対するmetric aliasを用いたクエリにJDBC APIとGraphQL APIが対応されました
特定のメトリクスに対してaliasを使ったクエリが出来るようになりました。
詳しい内容についてはこちら(JDBC)とこちら(GraphQL)を参照ください。
本章の執筆者:河野 浩明(Data Engineer)
Tableauのニュースまとめ
Tableau CloudのActivity Logにsite eventsとtenant eventsが追加されました
site内のセキュリティ設定やコンテンツアーカイブなどのsiteレベルの操作ログを追えるようになりました。
siteの作成・削除やユーザー操作などのtenantレベルの操作ログを追えるようになりました。
詳しい内容についてはこちら(Site Event)とこちら(Tenant Event)を参照ください。
Tableau Pulseが14ヶ国語に対応開始されました
Tableau CloudやTableau Mobileで設定している言語設定をTableau Pulseに反映できるようになりました。
Tableau Pulse data source goalsの設定がリリースされました
メトリクス定義をする際に動的な目標値を設定可能になりました。
目標値として使用するフィールドと集計に使用する時間範囲フィールドを選択することでそれに基づいて値が計算されます。
詳しい内容についてはこちらを参照ください。
Tableau Pulseのメトリクス定義でlink設定が追加されました
メトリクス作成時に、関係するSlackチャネルやダッシュボードなどの外部リンクをメトリクス定義に含めることで、ユーザーは気になったメトリクスについてより深く調査することができるようになりました。
詳しい内容についてはこちらを参照ください。
本章の執筆者:河野浩明(Data Engineer)
Databricksのニュースまとめ
Clean Roomsが一般提供開始になりました
Databricks Clean Roomsが一般提供(GA)となりました。Clean Roomsの設定、オーケストレーション、監視を自動化するための新しいAPIが導入されました。また、単一のメタストア内でClean Roomsを作成し、本番環境での展開前にテストできるようになりました。Azure上でホストされる中央Clean Roomsで出力テーブルがサポートされ、HIPAA準拠のセキュリティプロファイルでClean Roomsを作成できるようになりました。さらに、新しいクエリ連携機能を利用して、データを複製または移行せずに異なるクラウドやデータプラットフォーム間でシームレスに連携できるようになりました。
AI エージェントツールの外部サービス連携がパブリックプレビューになりました
AI エージェントツールがSlack、Google Calendarなどの外部アプリケーションにHTTPリクエストで接続可能になり、タスクの自動化やデータ取得が可能になりました。
Delta Live Tablesの複数スキーマ・カタログに対応しました
Delta Live Tablesの新規パイプラインで、デフォルト設定が変更され、複数のカタログとスキーマにマテリアライズドビューとストリーミングテーブルを作成できるようになりました。パイプライン設定では、ユーザーがターゲットスキーマを指定する必要があり、従来のLIVE
仮想スキーマと関連する構文は不要になりました。
OAuthトークン連携がパブリックプレビューになりました
アカウント管理者向けにDatabricks OAuth token federationがパブリックプレビューで利用可能になりました。IDプロバイダーのトークンを使用してDatabricks APIに安全にアクセスでき、個人アクセストークンやOAuthクライアントシークレットの管理が不要になります。特に指定がない限り、既存のID設定と権限に変更はありません。この機能は、アカウント全体または特定のサービスプリンシパルに適用可能です。
Mosaic AI Gateway provisioned throughputがパブリックプレビューになりました
Mosaic AI Gatewayがmodel serving endpointで基盤モデルAPIのprovisioned throughputワークロードをサポートしました。provisioned throughputを使用するエンドポイントでは以下のガバナンスと監視機能を有効化できます
本章の執筆者:西山徹(Senior Product Manager)
TROCCO®のニュースまとめ
転送元Sansanコネクタがリリースされました
転送元Sansanを追加しました。
これにより、Sansanに蓄積された名刺データや企業情報を、他のデータ基盤に簡単に連携できるようになりました。
詳しくは、転送元 – Sansanを参照ください。
Snowflake接続情報で2025年11月からキーペア認証が必須になります
2025年11月から、Snowflakeではユーザー・パスワード認証が利用できなくなります。
これに伴い、Snowflake接続情報のホスト名の入力形式について、これまではユーザー・パスワード認証のみが対応していた<ORGANIZATION>-<ACCOUNT_NAME>形式を、キーペア認証でも利用できるよう対応しました。
今後はキーペア認証をご利用ください。
Databricks接続情報にてOAuthマシン間(M2M)認証が利用できるようになりました
Databricks接続情報の認証方式にて、これまではPersonal Access Tokenによる認証のみ対応していましたが、今回OAuthマシン間(M2M)認証を追加しました。
設定方法について、詳しくはDatabricksの接続情報を参照ください。
コネクタAPIアップデート: 転送先Facebook カスタムオーディエンス(β版)・転送先Facebook コンバージョンAPI
転送時に使用するFacebook APIのバージョンを、v18からv21へアップデートしました。
新バージョンについて、Meta for Developersを参照ください。
コネクタAPIアップデート: 転送元Criteo
転送時に使用するCriteo APIのバージョンを、v2024.04からv2024.10へアップデートしました。新バージョンについて、Version 2024.10 release notesを参照ください。
マネージド転送設定にてGoogle BigQueryコンソールに直接アクセスできるようになりました
転送先Google BigQueryのマネージド転送設定にて、転送設定ごとにBigQueryのコンソール画面へのリンクを追加しました。
リンクをクリックするとGoogle BigQueryコンソールが開き、対象のテーブルを確認できます。
ワークフロー定義一覧でカスタム変数ループ設定による絞り込みができるようになりました
ワークフロー定義一覧の絞り込み条件にループ設定を追加しました。
カスタム変数のループ設定の有無によって、ワークフロー定義を絞り込むことができます。
TROCCO APIにワークフロー定義APIを追加されました
TROCCO 接続情報APIにてGoogle Cloud Storageに対応されました
接続情報APIの操作対象コネクタとして、Google Cloud Storageが追加されました。
今回追加対象となったAPIエンドポイントは以下のとおりです。
Terraform Provider for TROCCOの対応範囲が拡充されました
Terraform Provider for TROCCOのリソースとして、以下が新たに追加され、Terraformでコード定義できるようになりました
本章の執筆者:西山徹(Senior Product Manager)
COMETA®のニュースまとめ
メタデータ自動生成機能(ベータ版)が利用可能になりました
メタデータ編集画面においてボタンをクリックするだけでテーブル・カラムの論理名や説明を自動生成します。生成結果はフォームに自動入力され、ユーザーはその内容を自由に修正・保存できます。この機能により、メタデータが少ない段階であっても素早く初期情報を整えることが可能です。
対象のテーブル・カラムに含まれているデータや、そのデータを生成しているSQLなどの情報をインプットすることで、AIにより生成されるメタデータの品質を向上しております。
Snowflakeのデータストア詳細画面にてホスト名などが確認できるようになりました
Snowflakeのデータストア詳細画面で、アセット取得ユーザーが登録しているホスト・ウェアハウス・ロールに関する情報を確認できるようになりました。
<画像>
Snowflakeのカラム順をCOMETAでそのまま表示できるようになりました
COMETAで、Snowflakeのテーブルのカラム順をそのまま表示できるようになりました。
カラムのソート基準については、公式ドキュメントの ORDINAL_POSITION を参照ください。
アセット情報画面でテーブル・ビュー・マテリアライズドビューを視覚的に区別できるようになりました
テーブル・ビュー・マテリアライズドビューを視覚的に区別できるようになりました。
テーブル名に紐づくラベル部分にて、どのデータ構造が用いられているかを確認できます。
また、アセット一覧(ツリー部分)のアイコンも区別されるようになりました。
dbtメタデータ連携で取り込んだdescriptionをMarkdown形式で表示できるようになりました
テーブル・カラム詳細画面にて、dbtメタデータ連携で取り込んだdescriptionをMarkdown形式で表示できるようになりました。
docsブロックなどを使ってdescriptionにMarkdown形式で記入している場合においても、COMETA上でMarkdown形式の見た目のままdescriptionを確認できるようになりました。
本章の執筆者:廣瀬智史(Head of of Product Management)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。