本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。
今川航、 庵原崚生、鈴木大介、片貝桃子、西山徹、廣瀬智史
Google BigQueryのニュースまとめ
スロット RecommenderがGAになりました
クエリジョブの過去のスロット使用量を分析し、同様のパフォーマンスを維持した状態での費用最適化の推奨事項と、予約に関するパフォーマンスに基づく推奨事項を取得できます。
オンデマンド課金の場合にはプロジェクトをEnterpriseエディションに移行した場合に関するコスト最適化の推奨事項が取得できます。
BigQuery JupyterLabプラグインがプレビューになりました
Jupyterノートブックを利用してBigQueryのデータの確認、BigQuery DataFrames APIの使用、ノートブックのCloud Composerへのデプロイができるようになります。
本章の執筆者: 今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
今月のSnowflakeのニュースのまとめでは、6月3日〜6月6日(現地時間)に開催されたSnowflake Summit 2024内での発表も併せて紹介します。
コネクタ用SnowflakeネイティブSDKが利用可能になりました
Javaのテンプレートとクイックスタートを兼ね備えたライブラリで、これを使用することで独自のSnowflake Native Appベースのコネクタを素早く構築し、外部データソースからSnowflakeへ簡単にデータを取り込むことができるようになります。
詳しい内容については「コネクタ用SnowflakeネイティブSDKについて」のページをご参照ください。
※本項目はSnowflake Summit 2024で発表された内容です。
Snowflake Notebookが利用可能になりました
SnowsightからNotebook形式でインタラクティブにデータのアクセスや分析が行える環境が利用可能になりました。今まではローカル環境や他のPython Notebookからアクセス情報を利用してSnowflakeに接続する必要がありましたが、Snowflake内のクローズドな環境内のみでデータ利活用が可能となります。
また利用できるリージョンは、記事出稿時点では限られておりますが、Snowflake Copilotを使うことも可能です。
詳しい内容については「Snowflake Notebooksについて」のページをご参照ください。
※本項目はSnowflake Summit 2024で発表された内容です。
Snowpark Pandas APIが利用可能になりました
Snowpark経由でデータにアクセスし、データ加工やデータ処理行う際に、Snowpark Pandas APIを用いることで、Snowflakeのデータに対してPandasの記述をSQLに翻訳し発行する形で、処理が行えるような機能が利用可能になりました。
今までもSnowpark API経由でPandasを用いてデータに対して操作を行う際、クライアントの実行環境にダウンロードする形でデータを保持した上でPySparkライクにDataFrameを操作することが可能でしたが、実行環境のスペックによるパフォーマンスや、セキュリティへの懸念などがありましたが、処理自体をSnowflake内部のみで完結できるようになるため、ワークロードやセキュリティへの懸念が払拭されます。
詳しい内容についてはSnowpark pandas APIのページをご参照ください。
※本項目はSnowflake Summit 2024で発表された内容です。
Snowpark Container Serviceを使用したSnowflake Native Appsが利用可能になりました
Snowflake Native AppsとしてStreamlitで開発されたアプリケーションを利用することが可能でしたが、こちらのリリースでSnowpark Container Serviceも利用可能になりました。
Snowpark Container Serviceとは、コンテナ化されたアプリケーションをSnowflake内にデプロイすることができる機能で、StreamlitのようにPythonのみでの開発ではなく、デプロイできるものであればあらゆる言語、フレームワーク、アプリケーションを実行することができる環境を提供するサービスです。
Native Appsとして利用できるようになることで、Streamlitでは開発することが難しいWebアプリケーションの構築やLLMをはじめとする機械学習モデルの学習・実行までさまざまなアプリケーションをMarketplace経由で誰でも利用できるように公開できるようになります。
詳しい内容についてはコンテナ付きアプリについてのページをご参照ください。
※本項目はSnowflake Summit 2024で発表された内容です。
Snowpark Python ローカルテストフレームワークがGAになりました
Snowflakeに対して処理を行うコードを記述した際に、CI/CDパイプラインのデプロイ前にテストを行うことができるフレームワークが利用可能になりました。
最大のメリットとして、Snowflakeのアカウントへのアクセスが必須でなく、テストコード内に記述したDataFrameをSnowflakeのオブジェクトして認識させ、Snowflake上でテストしているような環境の提供(エミュレーター)として機能させることができます。
詳しい内容についてはローカルテストフレームワークについてのページをご参照ください。
※本項目はSnowflake Summit 2024で発表された内容です。
ユニバーサル検索がGAになりました
Snowsight上で、Snowflake Marketplaceで利用可能なテーブル、関数、データベース、データ製品、関連する Snowflake ドキュメントのトピック、および Snowflake コミュニティ ナレッジベースの関連記事など、Snowflakeに関連するさまざまな情報を一括で検索できる機能がGAになりました。
GAに伴い、ワークシートとダッシュボードも検索結果に含まれるようになりました。
詳しい内容については「Snowflakeオブジェクトとリソースを検索」のページをご参照ください。
※本項目はSnowflake Summit 2024で発表された内容です。
Snowflake Data Clean Roomsでさまざまな機能が利用可能になりました
機密情報を保持しながらインサイトを得るための共有方法として提供されているData Clean Roomsのさまざまな機能に追加・改修が行われました。
特徴的なリリースを中心に抜粋してご紹介します。
利用可能なリージョンが追加されました
現在Snowflakeがサポートしている全ての商用リージョンでSnowflake Data Clean Roomsが利用可能になりました。
対応リージョンについてはリリースノートをご参照ください。
Webアプリでの複数のカスタムテンプレートがサポートされました
プロバイダーが開発者APIを使用して、複数のカスタムテンプレートをWebアプリに追加できるようになりました。これにより、Data Clean Roomsの消費者はUIを使用して、単一のデータクリーンルーム内で様々な種類のカスタム分析を実行できるようになります。
詳しい情報についてはリリースノートをご参照ください。
プロバイダーがData Clean Roomsで分析可能になりました
クリーンルームの消費者だけでなく、データのプロバイダーも自社のクリーンルーム内で分析を行えるようになりました。以前はプロバイダーはデータプロバイダーになることしかできませんでしたが、このリリースにより、消費者が共有するデータからプロバイダーも直接分析を行うことができるようになります。
詳しい情報についてはリリースノートをご参照ください。
LLMから1024次元のベクトルを出力するEMBED_TEXT_1024が利用可能になりました
現在利用できるLLM関数として、EMBED_TEXT_768関数を用いることで文字列からベクトル(数字列)に変換することができます。
これは768次元のベクトルとして出力されますが、今回1024次元の出力を行うことができるEMBED_TEXT_1024関数が利用可能になりました。
次元数が違うことで、以下のトレードオフを調整することができます。
ベクトルの表現力 | ベクトルの次元数が向上することで、文章が保持していた意味の表現力を失うことなく変換することができます。 |
計算量 | RAGアプリケーションなどで利用する際に、ベクトル同士の計算を行う必要がありますが、次元数が少ない方が計算量を削減することができます。 |
構築したいアプリケーションの特性に合わせて調節する幅が増えたことが大きなメリットとなり得そうです。
現在はAWSのUS West 2 (Oregon)リージョンで利用可能です。
詳しい内容についてはリリースノートをご参照ください。
その他アップデート(一部抜粋)
IcebergテーブルがGAになりました
Open Table FormatであるIceberg形式のテーブルをSnowflakeで利用できる機能がGAになりました。
さまざまなコンピュートエンジン上で相互運用可能な形で運用ができ、データ管理の柔軟性と一貫性を提供します。
詳しい内容についてはIceberg Tableについてのページをご参照ください。
WAREHOUSE_EVENTS_HISTORYビューがGAになりました
仮想ウェアハウスの状態変更のイベント参照できるWAREHOUSE_EVENTS_HISTORYビューがGAになりました。
各仮想ウェアハウスがイベントのタイムスタンプとイベントの発生理由(ユーザーが起動したなど)のログを参照することが可能です。
仮想ウェアハウスの詳細な利用状況の確認ができることでコスト管理や監査目的での利用が想定されると考えられます。
詳しい内容についてはWAREHOUSE_EVENTS_HISTORY ビューについてのページをご参照ください。
LLMヘルパー関数TRY_COMPLETE および COUNT_TOKENSがGAになりました
Snowflake Cortex LLM関数を利用する際に、トークン数の上限によるエラーハンドリングなどを行う際に利用可能な関数です。
TRY_COMPLETE | COMPLETE関数を実行しようとし、実行できない場合はエラーではなくNULLを返します。事前に入力したいプロンプトが指定したモデルで利用可能かどうかをチェックする際に利用可能です。 |
COUNT_TOKENS | 指定されたモデルや関数に基づいて、指定された入力テキスト内のトークン数を返します。トークン数による課金が行われるため、コストの節約や処理時間の短縮に貢献できます。 |
詳しい内容についてはリリースノートをご参照ください。
TABLE_DML_HISTORYおよびTABLE_PRUNING_HISTORY ビューになりました
Account_usage内で利用可能なビューがGAになりました。
- TABLE_DML_HISTORYビュー: テーブルに対して実行されたDML操作の大きさと影響の調査が可能になります。これを用いてデータモデリングの設計やテーブルなどのオブジェクト設計に活用することが可能です。
- TABLE_PRUNING_HISTORYビュー: テーブルのプルーニング効率を測定することができます。これを用いてテーブルに対して自動クラスタリングと検索最適化を有効にした前後でのプルーニングへの影響調査が可能になります。
詳しい内容についてはリリースノートをご参照ください。
Hybrid TableのTime Travelが利用可能になりました
Snowflake特有のOLAPテーブルの特徴だけでなく、OLTPテーブルとして利用が可能なHybrid TableにTime Travel機能が利用できるようになりました。
AT や BEFOREのようなクエリ構文が利用可能です。
詳しい内容についてはリリースノートをご参照ください。
組織概要ページがGAになりました
Snowsightでの組織概要ページがGAになり、Snowflakeの使用コストに関する組織的なインサイトを得られるようになりました。
ページには以下の情報が含まれます。
- 現在の契約に関する詳細情報
- 契約の残高(キャパシティ契約など)
- 契約開始以降のSnowflakeを使用した累積コスト
- 組織の毎月の支出
- 組織内の各アカウントの消費の概要
詳しい内容については「総コストの調査」のページをご参照ください。
Streamlit in SnowflakeのカスタムUIが利用可能になりました
Streamlit in Snowflake のカスタム UI が利用可能になりました。この機能を利用することでアプリの外観、操作性などフロントエンドの操作をStreamlitの基礎コンポーネントの想定挙動を超えて、記述・カスタマイズすることができます。
このリリースでは以下の機能がサポートされるようになります。
- st.markdownでの
unsafe_allow_html=True
で使用できるHTMLとCSS - st.components.v1.htmlを使用したIframe化されたHTML、CSS及びJavascript
詳しい内容についてはStreamlit in Snowflakeの追加機能についてのページをご参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
Looker Studioのニュースまとめ
表形式で閲覧者のフィルタを無視した合計値が表示できるようになりました
表形式では、これまで「集計行を表示」で合計値を表示することができましたが、表示対象に対してフィルタをかけるとフィルタリングされた対象に対する合計値を表示するようになっていました。
今回のアップデートでは、「集計行ではキャンバスフィルタを無視する」を選択することで、フィルタを無視した合計値を表示することもできるようになりました。比較対象とする合計値を柔軟にすることで、数値の比較の利便性が向上しています。
データラベルのカスタマイズオプションが拡張されました
プロパティパネルのスタイルタブにあるデータラベルセクションで、フォントの種別、フォントの色、フォントサイズ、フォントスタイル、背景色、不透明度の設定など、細かく設定できるようになりました。これらは以下のグラフで利用することができます。
- 面グラフ
- 棒グラフと縦棒グラフ
- 折れ線グラフと複合グラフ
- 時系列グラフ
「その他」グループがより多くのグラフで使えるようになりました
「その他」グループのグラフ設定を利用することで、指定した制限を超える集計結果をその他のラベルに集計することができます。このアップデートによって、表示データの意図しない制限を統制しやすくなりました。これらは以下のグラフで利用することができます。
- 表
- 時系列グラフ
- 棒グラフと縦棒グラフ
- 円グラフ
- 折れ線グラフと複合グラフ
- 面グラフ
- ピボットテーブル
- ツリーマップ
新しいフィールドとしてビンが作成できるようになりました
フィールドを作成する際に、計算フィールドと別にビンが選択できるようになりました。これは指標を一定の幅ごとに分割するものですが、計算フィールドではCASE文を複数かかなければならなかったところが、ビンではシンプルに作成することができるようになっています。
タイムラインチャートにツールチップに応じた色のオプションが追加されました
配色の設定として、行ラベル、バーラベルに加えて、ツールチップ別で配色を指定できるようになりました。
新たなパートナーコネクタが追加されました
下記のパートナーコネクタがLooker Studioレポートギャラリーに追加されました。
- Google Ads Account Explorer by Supermetrics
- TrueClicks PPC Audit by Trueclicks
- Pitchbox Project Status by Pitchbox
- Pitchbox Outreach Activity by Pitchbox.com
- Pitchbox Campaigns Data by Pitchbox.com
- Pitchbox Link Monitoring by Pitchbox.com
- LinkedIn Company Pages By Railsware Products Studio, LLC
- Microsoft Advertising By Railsware Products Studio, LLC.
- Facebook Public Data By Railsware Products Studio, LLC.
- Instagram Insights By Railsware Products Studio, LLC.
- X / Twitter Public Data by Catchr.io
- Bing Webmaster Tools by Daxrm
- Microsoft Ads by Daxrm
- Instagram Public Data by Catchr.io
- TikTok Organic by Reportingninja
本章の執筆者:鈴木大介(Project Manager)
dbtのニュースまとめ
dbt Cloud – dbt Snowflake Native Appが利用可能になりました
dbt CloudをSnowflakeのNative Appと呼ばれる利用者が簡単にSnowflake内でアプリケーションを利用することができる機能として利用可能になりました。
利用にはAWSかAzureリージョンのEnterpriseプランのdbt Cloudアカウントが必要になります。
新しい機能として、Ask dbtというdbt Semantic Layerのデータ参照やカタログ情報を基に、アシストを行ってくれるChatbot機能が利用できます。
詳細は以下のページをご参照ください。
dbt Cloud – MetricFlowに累積メトリクスの新しい粒度と集約関数がサポートされました
累積メトリクスの粒度オプションは他のメトリクスと異なり、date_trunc関数を使用して時間粒度の変更ができませんでした。
今回のサポートで、他のすべてのメトリクス・タイプと同様に、複数の粒度オプション(日、週、月、四半期、年)が返されるようになりました。 以前は、累積メトリクスの粒度オプションは1つしか照会できませんでした。
また今回のサポートでfirst() 、last()、avg() 集約関数が利用可能になり、特定の期間の累積値の最初の値か最後の値、もしくは平均値を算出することができます。
詳しい内容については累積メトリックについてのページをご参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
Tableauのニュースまとめ
Tableau Desktop最新バージョン2024.2がリリースされました
以下のような新機能が利用可能になりました。
Viz Extension
マークカードのプルダウンから、拡張機能の追加が可能になっています。(まだベータ版との記載はあり)
サンキー図が簡単に作れるようになっています。
Individual Control Formatting
フィルタやパラメータの書式設定を選択するとき、これまでは一律ですべてのフィルタもしくはパラメータに対する設定のみ行うことができました。これに対して、個別での設定が可能になりました。
日付範囲を指定した増分抽出
データソースにおいて、データ抽出の編集より「増分更新」を選択した際、更新対象の期間を指定できるようになりました。(例えば、過去14日間のみを対象として増分更新を行う、など)
ユースケースが合う場合には、抽出の高速化・コスト削減を図ることができそうです。
詳細はExtract Your Data – Tableauの「Date Range (Subrange)」の項をご確認ください。
マルチファクトリレーションシップ
これまでは、Tableau Desktopのデータソースにおいて、複数のディメンションテーブルを、複数のファクトテーブルで共有する形のリレーションを組むことができませんでした。
ディメンショナルモデリングを採用したデータウェアハウスに接続するシーンで障害になることがありましたが、解消されます。
詳細はWhen to Use a Multi-fact Relationship Model – Tableauをご確認ください。
新しい料金プランTableau+が登場しました
Tableau Cloudの、エンタープライズ向けの新たなプランです。パッケージとして以下が含まれるようです。
- Einstein Copilot for Tableau (Tableau+ のみで提供)
- Tableau Prep
- Data Cloud
- Einstein(AI)リクエスト・クレジット:ableau AI の Generative AI 機能を使用するのにあたって必要なクレジット
- Tableau Data Management
- Tableau Catalog:Data Managementのアドオン
- Advanced Management:Tableau Cloudの管理機能
- Data Connect:Tableau Cloudのオンプレミス環境とプライベートクラウド環境間でデータにシームレスにアクセス
- Premier Success:カスタマーサクセスサポート
- eLearning for Creators and Explorers
詳細はTableau+: New Edition with Premium AI, Enterprise Capabilities and Premier Successをご確認ください。
TableauのステータスページであるTableau Trustが、7/15よりSalesforce Trustに統合されます
Tableau Trustが2024/7/15よりSalesforce Trustに統合されるようです。
Eメールでサブスクリプション登録済みのユーザーは特に対応不要で引継がれるようですが、SMSについては再登録が必要になるようです。
本章の執筆者:片貝桃子(Data Analyst)
Databricksのニュースまとめ
Mosaic AI Vector Search がhybrid searchをサポート
Mosaic Ai Vector Searchはベクトルベースの埋め込み検索と、従来のキーワード検索を組み合わせた、hybrid searchをサポートしました。これにより、より包括的かつ関連度の高い結果を返すことが期待されます。
Delta lakeの列マッピングがGA
Delta lakeに列マッピングがリリースされました。これにより、メタデータのみの変更によって、データ ファイルを書き換えることなく、列を削除または名前変更としてマークできます。
詳しくは「Delta Lake 列マッピングを使用して列の名前を変更および削除する」をご覧ください。
Delta lakeの予測的最適化がGA
Unity Catalogで管理されたテーブルについて、予測的最適化がGAになりました。これにより、 OPTIMIZE や VACUUM によるテーブルの最適化が自動で実行されるようになり、手動でのメンテナンスが不要になります。
詳しくは「Delta Lakeの予測的最適化」をご覧ください。
Lakehouse MonitoringがGA
Lakehouse MonitorningがGAになりました。Lakehouse monitornigを使用すると、アカウント内の全てのテーブルのデータの統計や品質を監視できます。
詳しくは「Databricks レイクハウスモニタリングの概要」をご覧ください。
Databricks GeosがGA
Databricks GeosがGAになりました。Databricks上でデータが処理される際、明示的にDatabricksが定義した地域単位(Geo)でのみ処理されます。これにより、データが予期しない地域で処理されたり転送されることを防げます。
詳しくは「Databricks Geos: データ所在地」をご覧ください。
Databricks AssistantがGA
昨年よりPublic previewの状態にあったDatabricks AssistantがGAになりました。Databricks Assistantを使うことで、例えば以下のようなことが実現できます。
- コードの生成、デバッグ、最適化、コード自体の説明を生成する
- データからグラフなどを生成する
- Jobのデバッグ(※Public preview)
- SQLクエリの生成と編集
- Databricksドキュメントからの関連情報の検索
詳しくは「Databricks Assistantとは」をご覧ください。
本章の執筆者:西山徹(Senior Product Manager)
TROCCO®のニュースまとめ
転送設定の追加・アップデートをしました
転送先Databricks
転送先Databricksを新たに追加しました。詳しくは、転送先 – Databricksを参照ください。
転送先kintone
転送先kintoneのupdate/upsertにおけるアップデートキーにレコードIDを指定できるようになりました。
レコードIDを指定したい場合、アップデートキーに$id
と入力してください。
dbtバージョン1.7および1.8に対応しました
dbt Core v1.7およびdbt Core v1.8を指定できるようになりました。
dbtバージョンは、dbt Gitリポジトリより選択できます。
転送先Google Ads APIのバージョンをアップデートしました
拡張コンバージョンに関して、転送時に使用するGoogle Ads APIのバージョンを、v14.1からv16へアップデートしました。
新バージョンについては、Google Ads APIのドキュメントを参照ください。
本章の執筆者:西山徹(Senior Product Manager)
COMETAのニュースまとめ
データストアの連携解除が可能に
作成したデータストアの連携を解除できるようになりました。
詳しくは、データストア連携管理のページをご参照ください。
ダッシュボード機能を拡充しました
COMETAのダッシュボード画面より、以下に関して、利用時点での値と先月を起点に過去12ヶ月分の月次の値を確認できるようになりました。
- メタデータ管理ユーザー数
- メタデータ閲覧ユーザー数
- 課金対象アセット数
- 入力済み基本メタデータ数
- 入力済みユーザー定義メタデータ数
- カラム参照数
詳しくは、料金に関する詳細情報のページをご確認ください。
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。