本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。
今川航、 庵原崚生、鈴木大介、片貝桃子、西山徹、廣瀬智史
Google BigQueryのニュースまとめ
Apache Icebergテーブルとパーティションが一致するマテリアライズドビューを作成できるようになりました
2024年8月現在は時間ベースのパーティションのみをサポートしています。この機能はプレビュー版です。
JSON_KEYS関数がプレビュー版として利用できるようになりました
JSON_KEYS関数を使うとJSON式からユニークなキーを抽出することができます。
時系列分析をサポートする時系列関数とレンジ関数がGAになりました
使用できる関数は以下のとおりです。
時系列関数
- DATE_BUCKET
- DATETIME_BUCKET
- TIMESTAMP_BUCKET
- GAP_FILL
レンジ関数
- GENERATE_RANGE_ARRAY
- RANGE
- RANGE_CONTAINS
- RANGE_START
- RANGE_END
- RANGE_INTERSECT
- RANGE_OVERLAPS
- RANGE_SESSIONIZE
各関数の使用方法については公式ドキュメントをご参照ください。
EXPORT DATAステートメントでBigQueryからBigTableへのリバースETLがGAになりました
詳細は公式ドキュメントをご参照ください。
Vertex AIのAnthropic Claudeモデルをベースとしたリモートモデルがプレビュー版として作成できるようになりました
現在は以下のモデルがサポートされています。
- claude-3-5-sonnet@20240620
- claude-3-sonnet@20240229
- claude-3-haiku@20240307
- claude-3-opus@20240229
Gemini in BigQueryの以下の機能がGAになりました
- 分析情報
- データキャンバス
- SQL及びPythonのコード支援機能
- パーティションとクラスタの推奨事項
詳細は公式ドキュメントをご参照ください。
ARRAYとSTRUCTのデータ型でGROUP BY句とSELECT DISTINCT句がプレビュー版として使用できるようになりました
これまでは一度文字列に変換するなどの工夫が必要でしたが、より簡潔なクエリをかけるようになります。
Delta Lake BigLakeテーブルがGAになりました
詳細は公式ドキュメントをご参照ください。
本章の執筆者: 今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Cortex Analystが利用可能になりました
Snowflake 内の構造化データに基づいてビジネス上の質問に確実に回答できるアプリケーションを作成できる、完全に管理されたSnowflake Cortex機能である Cortex Analystが利用可能になりました。
Snowflake内に配置した構造化データと事前に定義したセマンティックモデルを一緒に利用することで各企業の固有のドメイン知識・用語を反映した形で、データに対して自然言語を用いて問い合わせを行う仕組みを作成することができます。
また内部的にはREST APIを用いているため、様々なアプリケーションから問い合わせを行うことができ、その裏ではSnowflakeのセキュリティやガバナンス機能のメリットを享受しながら利用することが可能です。
利用可能地域は現在は以下の通りです。
- AWS ap-northeast-1 (東京)
- AWS us-east-1 (バージニア)
- AWS us-west-2 (オレゴン)
- AWS eu-central-1 (フランクフルト)
- Azure 東部 US 2 (バージニア)
- Azure 西ヨーロッパ (オランダ)
詳しい内容についてはリリースノートをご参照ください。
Snowflake AI・ML機能のクロスリージョン推論がGAになりました
現在SnowflakeのSnowflake AI・ML機能について、各リージョンごとで利用可能なAI・LLMモデルの公開に差異がある状態ですが、リリースされたクロスリージョン推論を用いることとで、推論が最初に要求されたリージョンでリクエストを処理できない場合に、別のリージョンで推論を行うことができるようになりました。
これによりCortex LLM 関数や Snowflake Copilot など、クロスリージョン推論でサポートされるすべての Snowflake 機能の推論を動作させることができるように設定できます。
設定については、ユーザーが指定したリージョン先を第2推論先として設定できるため、意図していないリージョンでの推論は行われないようになっています。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
Snowflake Data Clean Roomsで利用できるテーブルが増えました
今回のリリースで、Snowflake Data Clean Rooms内で外部テーブルとIcebergテーブルが利用可能になりました。
共同作業者がサードパーティコネクタを利用して、外部のクラウドストレージからデータにアクセスするときに、Snowflake は外部テーブルを使用できるようになり、大規模なデータセットの実現に関連する問題が解消されるようになります。
制限として、利用ためにプロバイダーは管理対象アカウントとクリーンルームを共有するときに外部テーブルと Iceberg テーブルを有効にする必要があったり、異なるリージョン間でのリンクができなかったり、集計・投影ポリシーが適用されている場合は、SQLクエリテンプレートを用いて分析を実行できなかったりなどの制限があります。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
Azure 外部ネットワーク アクセスと外部関数を使用した送信プライベート接続が利用可能になりました
このリリースで、Microsoft Azure 上の Snowflake アカウントが外部ネットワークアクセスと外部関数の機能を使用してプライベート接続を使用できるようになりました。
この機能を利用することで、Snowflake アカウントをホストする VNet から Azure Private Link を使用して、Azure Private Link で Azure リソースに接続できます。
ユースケースとして、Snowflakeの外部にアクセスしたい際に、Azure Private Link を使用して Snowpark 内の UDF/UDTF またはストアド プロシージャから外部サービスに接続するように外部ネットワーク アクセスを構成できます。
詳しい内容についてはリリースノートをご参照ください。
全文検索が利用可能になりました
このリリースではSEARCH関数を用いて、VARIANT、OBJECT、および ARRAY 列のフィールドを含む 1 つ以上のテーブルから指定された列の文字データ (テキスト) を検索することができます。
この検索ではファジーな検索を行うことができ、例えば、自然言語の文章に対して「疑問文」だけを取り出したい際に、様々な文脈の疑問文を取り出すことができます。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
差分プライバシーが利用可能になりました
データプライバシーの広く認知された標準である差分プライバシーが利用可能になりました。
現在Snowflakeでは、既存機能のマスキングによる匿名化や集計・投影ポリシーを用いてデータの秘匿化を行うことが可能ですが、それでもデータの特性による相関の特定や依存関係を見出すことができ、個人情報の流出に繋がりかねないケースが存在します。
Snowflakeでは厳密な数学のバックグラウンドを使用して、集計データにはノイズを発生させつつ、プライバシー損失を制限することで、データセット内の個人やエンティティを許容できないほどの確実性で特定できないようにしながら、一定の統計的信頼性までクエリ履歴全体の機密データを保護できます。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
その他アップデート(一部抜粋)
Document AIが新しくなりました
Document AI内で利用されているArctic-TILT モデルの新しいバージョンが利用可能になりました。
今回のバージョンでは、モデルによる回答の長さが2倍になり、最大256トークン(160語)の長さの回答ができるようになり、また利用にあたってのモデルのトレーニング時間が改善されました。
詳しい内容についてはリリースノートをご参照ください。
Snowflake Native AppでAWS上のVPSがサポートされました
Amazon Web Services 上の Virtual Private Snowflake (VPS) に対する Snowflake Native App FrameworkのサポートがGAになりました。
利用にあたって、権限周りの設定管理方法や公開方法の制限、Snowflake Marketplaceでの詳細設定など、いくつか設定項目の追加や制限があります。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
RANGE BETWEENがGAになりました
範囲ベースのウィンドウフレームとして、RANGE BETWEENウィンドウフレームがGAになりました。行単位のウィンドウフレームとは異なり、論理的に計算された行のセット内で集計関数を適用することができます。
ユースケースとして、時系列データに対する移動合計、移動平均などの計算を簡単に行うことができます。
また今月のリリース内で、さらに標準偏差・分散・COUNT_IFによる集計も行えるようになりました。関数拡張のリリースノートも合わせてご覧ください。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
Snowflake 管理のPolaris Catalog Iceberg テーブルの同期に関する問題をトラブルシューティングするための新しいシステム機能が利用可能になりました
このリリースでシステム関数であるSYSTEM$SEND_NOTIFICATIONS_TO_CATALOGが利用可能になり、Polaris Catalogに通知を送信し、送信が失敗した場合は理由を説明するエラー メッセージが返されます。このエラーメッセージにより、Snowflake管理のIceberg テーブルが Polaris Catalogに同期されない理由を診断する際に有効です。
詳しい内容についてはリリースノート・公式ドキュメントをご参照ください。
IcebergテーブルでサードパーティエンジンがTimeTravel機能がGAになりました
Apache SparkやTrinoを含むサードパーティのコンピューティングエンジンを使用する場合に、Snowflakeが管理するIceberg テーブルでのTimeTravel機能のサポートがGAになりました。
Snowflake以外のコンピューティングエンジンでもデータアクセスの方法に拡張性が見込めます。
詳しい内容についてはリリースノートをご参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
Looker Studioのニュースまとめ
ビンフィールドで新たな形式が利用できるようになりました
以下のオプションが利用できます。
区間「[x, y)」 | x から y までの範囲(x は含むが、y は含まない)を表示します。 |
整数「x~y」 | 整数で表される離散値(年齢など)のグループを作成する場合にのみ使用できる形式です。 |
関係演算子「>= x かつ <y」 | 連続値(ドルなど)のグループを作成する場合に最適な形式です。 |
LookerとLooker Studioの共通する用語と概念の用語集が公開されました
この用語集では、両者のサービスで共通して使われる用語と概念を比較して説明しています。例えば、パラメーターは異なる意味の用語として利用されています。詳細はLookerとLooker Studioの共通の用語とコンセプトをご確認ください。
あらゆる指標でリストコントロールをソート可能になりました
参照指標だけでなく、任意の指標でリストコントロールがソートできるようになりました。
折りたたまれたピボットテーブルで条件付き書式が利用できるようになりました
折りたたまれたピボットテーブルで、単色の条件付き書式を適用できるようになりました。
新たなパートナーコネクタが追加されました
下記のパートナーコネクタがLooker Studioレポートギャラリーに追加されました。
- Adobe Commerce (Magento) By Supermetrics
- CTM: Call Log By CallTrackingMetrics LLC
- Piano Analytics By Catchr
- ClickUp By Bay Leaf Digital
- TikTok By Gladior B.V.
- WooCommerce By Data Bloo
- Apresenta.me By Apresenta.me
- Semactic SEO Data By Semactic
- Piwik PRO Analytics By Piwik PRO
- Metrihub By Metrihub
- Klaviyo By Power My Analytics
- Similarweb website analysis By Similarweb
本章の執筆者:鈴木大介(Project Manager)
Looker Studio Proのニュースまとめ
Gemini in Lookerの監査ログが利用できるようになりました
Gemini in Lookerのログイベントは管理コンソールで確認することができます。詳細はLooker Studioログイベントをご確認ください。
本章の執筆者:鈴木大介(Project Manager)
dbtのニュースまとめ
dbt Cloud – dbt Semantic Layer:より細かい時間粒度でMetricを設定できるようになりました
これまでは日別まででしたが、以下のように時間・分・さらに秒単位まで細かく設定可能になりました。
- nanosecond (Snowflake only)
- microsecond
- millisecond
- second
- minute
- hour
- day
- week
- quarter
- year
詳細は以下のページをご覧ください。
https://docs.getdbt.com/docs/build/dimensions#time
dbt Cloud – dbt Semantic Layer: Excelからの接続時に「保存された選択」と「保存されたクエリ」がサポートされるようになりました
- 保存された選択 Saved selections
- Microsoft Excelクエリビルダー(※)にて、作成したクエリを保存して再利用することが可能
- ※dbt Semantic Layer for ExcelというExcelアドイン
- 保存されたクエリ Saved queries
- MetricFlowを利用したSaved queriesに、Excelからアクセスすることが可能
詳細は以下のページをご覧ください。
https://docs.getdbt.com/docs/cloud-integrations/semantic-layer/excel#using-saved-selections
dbt Cloud – GitHubはdbt CloudへのOAuthログインにサポートされなくなりました
GitHubはdbt CloudへのOAuthログインにサポートされなくなりました。
本章の執筆者:片貝桃子(Data Analyst)
Tableauのニュースまとめ
Tableau Cloud / Pulse – ダッシュボードオブジェクトとして、Tableau Pulseのメトリクスが選択できるようになりました
Tableau Cloudにて、ダッシュボード編集画面の”オブジェクト”配下に「Pulse Metric」が追加され、メトリクスを埋め込むことが可能になりました。
同一のデータソースを使用している場合、作成したメトリクスが選択できます。
クリックすることでPulseのブラウザ画面への遷移も可能です。
詳細は以下のページをご覧ください。
Tableau Cloud / Pulse – メトリクスに対して目標が設定できるようになりました
目標値を設定することで、目標に対しての進捗が何%かを表示する、といったことが可能になりました。
詳細は以下のページをご覧ください。
Set Goals with Tableau Pulse
Tableau Cloud – Tableau CloudからHyperforceへの移行が開始
2024年8月から12月にかけて、Tableau Cloudのインフラ移管が予定されています。スケジュールは管理者に個別連絡が来ますが、移行当日はCloudが利用できません。
詳細は以下のページをご覧ください。
https://help.salesforce.com/s/articleView?id=000888250&type=1
その他のアップデート情報は、公式のリリースダッシュボードをご参照ください。
本章の執筆者:片貝桃子(Data Analyst)
Databricksのニュースまとめ
Databricks on AWS GovCloudがGAに
DatabricksがAWS GovCloud(米国)上で利用可能になりました。これによりFedRAMP High ベースラインや、米国国際武器取引規制 (ITAR) や輸出管理規制 (EAR) などのその他のコンプライアンス体制に準拠する安全なクラウド ソリューションを柔軟に構築できます。
詳しくはこちらのページをご覧ください。
https://docs.databricks.com/ja/security/privacy/gov-cloud.html
Databricks Assistantに新しいスラッシュコマンドが追加
Databricks Assistantに以下のスラッシュコマンドによるタスク実行が追加されました
/findTables | Unity Catalog メタデータに基づいて関連するテーブルを検索します。 |
/findQueries | Unity Catalog のメタデータに基づいて、関連するクエリを検索します。 |
/prettify | 読みやすくするためにコードをフォーマットします。 |
/rename | ノートブックのセルやその他の要素に、コンテキストに応じて更新された名前を提案します。 |
/settings | アシスタントから直接ノートブックの設定を調整します。 |
詳しくはこちらのページをご覧ください。
https://docs.databricks.com/ja/notebooks/use-databricks-assistant.html#use-slash-commands-for-prompts
Databricks JDBC driver 2.6.40が利用可能に
Databricks JDBC driverの新バージョンである2.6.40がサポート開始されました。
以下のようなアップデートなど、セキュリティ関連のアップデートが目立ちます。
- OIDC discovery endpointのサポート
- 認証サポートのアップデート。Google Cloudにおいてドライバーベースの認証(U2M)とクライアントクレデンシャル(M2M)の認証をサポート。
- デフォルトでOAuthオプションの追加
- `OAuth2RedirectUrlPort` パラメータをセットすることでOAuthリダイレクトポートを指定することが可能に
詳しくはこちらのページをご覧ください。
https://docs.databricks.com/ja/_extras/documents/Databricks-JDBC-Driver-Install-and-Configuration-Guide.pdf
Databricks personal access tokens が90日間以上使用されないと無効になる形に仕様変更
サードパーティ製品とDatabricksを接続する際に一般的に用いられる、Databricks personal access tokensが90日間以上使用されないと無効になる形に仕様変更されました。
詳しくはこちらのページをご覧ください。
https://docs.databricks.com/ja/admin/access-control/tokens.html#db-revoke-pats
Databricks Data Clean RoomがPublic Preview
Databricksによるデータクリーンルームソリューションである Databricks Data Clean RoomがPublic Previewになりました。これにより自組織が保有しているセンシティブなデータを直接データソースにアクセスさせることなく複数のDatabricksアカウントをまたいで参照させることができます。
詳しくはこちらのページをご覧ください。
https://docs.databricks.com/ja/clean-rooms/index.html
Row filterとColumn masksがGAに
Row filterと Column maskを使用することにより、テーブル内の機密データへのアクセスを特定ユーザーに絞ることが可能です。
- Row filterはテーブルにフィルターを適用し、クエリがフィルター条件を満たす行のみ返すように設定が可能です。Row filterはUDFとして実装します
- Column maskはテーブル列にマスク機能を適用し、ターゲット列の各参照をマスキング関数の結果に置き換えます。Column maskも同様にUDFとして実装します。
詳しくはこちらのページをご覧ください。
https://docs.databricks.com/ja/tables/row-and-column-filters.html
Lakehouse FederationがGAに
Lakehouse Federationとは、Databricksから外部のデータソースに対してクエリを実行することを可能にする機能です。
以下のデータベースタイプへの接続をサポートしています。
- MySQL
- PostgreSQL
- Amazon Redshift
- Snowflake
- Microsoft SQL Server
- Azure Synapse (SQL Data Warehouse)
- Databricks
また、以下の改善も行われています。
- Snowflake および Microsoft SQL Server コネクタでのシングルサインオン(SSO)認証のサポート。
- サーバーレスコンピュートにおけるstable egress IPのサポート。
- プッシュダウンのサポートの追加
本章の執筆者:西山徹(Senior Product Manager)
TROCCO®のニュースまとめ
プロフェッショナルプランの提供開始
2024年08月01日より、プロフェッショナルプランの提供を開始しました。
プロフェッショナルプランについて、詳しくは料金プランおよびプロフェッショナルプランに関する詳細情報を参照ください。
転送設定
転送先BigQueryの転送モードにUPSERTが追加
転送先出力モードとしてUPSERT (MERGE)が追加されました。
マージキーを基準に、既存テーブルにレコードがある場合はレコードを更新し、レコードがない場合はレコードを追記します。
UI・UX
転送設定一覧でリソースグループによる絞り込みができるように
転送設定一覧の絞り込み項目にリソースグループが追加されました。
リソースグループを選択して絞り込みをすることで、該当のリソースグループに属する転送設定を絞り込めるようになりました。
処理時間利用量に応じてメールによる通知が送付されるように
処理時間枠に対して、処理時間が一定程度超過したタイミングで通知メールが送られるようになりました。
処理時間枠に対して、50%・80%・100%をそれぞれ超過したタイミングで、アカウント特権管理者に対してメールが送付されます。
アクセス許可IPの対象をブラウザとAPIとで区別して適用できるように
アクセス許可IPの設定において、アクセス許可の対象をブラウザとAPIを場合分けして適用できるようになりました。
たとえば、アクセス許可するIPアドレスに192.0.2.1、アクセス許可の範囲をAPIからのアクセスを許可した場合、APIからのアクセスはIPアドレス192.0.2.1のみ許可されます。
このとき、ブラウザからはどのIPアドレスからもアクセスできることにご注意ください。
dbt連携
dbtバージョン1.6以下を廃止に
dbt Core v1.6以下のバージョンについて、公式よりサポートが終了したため、廃止しました。
今後はv1.7以上のバージョンをご利用ください。
本章の執筆者:西山徹(Senior Product Manager)
COMETAのニュースまとめ
用語の検索ができるようになりました
従来、アセット画面でアセットの検索が可能でしたが、それらが「探索」メニューとして独立しました。
これにより、用語の検索が可能になりました。
用語にアセットを関連づけることができるようになりました
データベース、スキーマ、テーブルと用語を関連付けできるようになりました。
作成した用語は、アセット情報画面にて各アセットに関連付けることができます。
また、用語の詳細画面からも、どのアセットに関連付けられているかを確認できます。
メタデータエクスポートの条件を選択できるようになりました
メタデータエクスポートの形式としてメタデータ未入力のアセットも含むすべてを選べるようになりました。
これにより、メタデータをよりかんたんに登録できるようになりました。
先にメタデータ未入力の<テーブルまたはカラム>も含むすべてを選択してメタデータエクスポートを行い、取得したCSVに上書きしてからメタデータインポートをすることで、COMETA上で手動入力せずともメタデータを登録できます。
必要な権限や利用上の制約など、詳しくはヘルプドキュメントのメタデータエクスポートを参照ください。
テーブル詳細画面から、関連するテーブルを含んだER図画面に遷移できるようになりました
テーブル詳細画面から、ワンクリックでER図画面に遷移できるようになりました。
任意のテーブルについてカラム参照が設定されている場合、「関連するテーブル(ER図)」というボタンが表示され、当該ボタンをクリックすると関連するテーブルを含んだER図画面に遷移できます。
本章の執筆者:廣瀬智史(Head of of Product Management)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。