本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、鈴木大介、片貝桃子、西山徹、廣瀬智史 |
Google BigQueryのニュースまとめ
VECTOR_SEARCH関数とベクトルインデックスがGAになりました
VECTOR_SEARCH関数を使用するとEmbedding(※)を検索して、意味的に類似したものを識別することができます。
ベクトルインデックスを使うと、再現性が低下するというトレードオフがありますが、より効率的に検索を行うことが可能になります。
※テキストや画像などをベクトル表現にしたもの
BigQuery MLでモデルモニタリングがGAになりました
以下の関数を使用することでBigQuery MLでモデルをモニタリングできます。
- ML.DESCRIBE_DATA
- ML.VALIDATE_DATA_SKEW
- ML.VALIDATE_DATA_DRIFT
- ML.TFDV_DESCRIBE
- ML.TFDV_VALIDATE
詳細は公式ドキュメントをご参照ください。
BigQuery Workflowsがプレビューになりました
SQLとnotebookについて実行順序を定義し、スケジュール実行ができるようになります
詳細は公式ドキュメントを参照ください。
カラム名に英語以外の言語や記号を使用できるようになりました(GA)
詳細は公式ドキュメントをご参照ください。
履歴ベースの最適化がGAになりました
最適化を有効にすると類似するクエリでの実行情報に基づいて、クエリのパフォーマンスを改善します。
詳細は公式ドキュメントをご参照ください。
本章の執筆者: 今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Snowflake Feature StoreがGAになりました
Snowflake Feature Storeが全ての地域で利用可能になりました。
この機能はデータサイエンティストやMLエンジニアが機械学習モデル向けに特徴量の作成・保守・運用を行う際に、よく利用する変換方法を中央集権的にリポジトリとして標準化する機能です。
これにより、前処理や特徴量作成の方法を再利用することが可能になることで、労力の削減や品質の維持に貢献できます。
詳しい内容についてはリリースノートをご参照ください。
Snowflake Data Clean RoomsでYahoo DSPの統合が利用可能になりました
分析でアクティベーションハブを使用する場合、ユーザーは分析結果を自分のYahoo DSPアカウントに直接アクティベートできるようになりました。
これにより、クリーンルーム内で生成したオーディエンスに対して、Yahoo DSPを通じて広告枠を購入することが可能になります。
これにより、Data Clean Rooms外にデータを出すことなく、統合という形でデータを連携することが可能です。
利用に際して、クリーンルームユーザーがYahoo DSPへのアクティベーションを行えるようにするには、Snowflake Data Clean Rooms Activation connectors内のYahoo DSPコネクタを設定する必要があります。
詳しい内容についてはリリースノートをご参照ください。
Snowflake Data Clean RoomsでGoogle PAIRとGoogle DV 360の統合が利用可能になりました
Data Clean Room内でのIdentiy Hubに広告主とパブリッシャーが両者のファーストパーティデータを安全に照合するためのプロトコルであるGoogle PAIRを利用することが可能になりました。これを利用して、パブリッシャーと広告主は Google PAIR プロトコルを活用して、広告主が暗号化された識別子でオーディエンス重複分析を実行することができます。
また、そこで照合した個人データを用いて、安全に広告の表示に入札するオンライン広告プラットフォームであるGoogle DV 360へのカスタムオーディエンスデータをプッシュすることが可能になりました。
これにより、Data Clean Rooms外にデータを出すことなく、統合という形でデータを連携することが可能です。
利用に際して、クリーンルームユーザーがGoogle DV 360へのプッシュを行えるようにするには、Snowflake Data Clean Rooms Activation connectors内のGoogle DV 360コネクタを設定する必要があります。
詳しい内容についてはリリースノートをご参照ください。
新しい Cortex LLM 関数であるCLASSIFY_TEXTがプレビューになりました
新しい Snowflake Cortex LLM 関数 CLASSIFY_TEXTがプレビューになりました。この新しい Cortex LLM タスク固有の関数を使用すると、テキストレコードをビジネスに関連するカテゴリに簡単にラベル付けできます。
ラベルについては、自身で設定する必要がありますが、文章 + ラベルリストを引数に入れることで、簡単に文章に対するラベリングを行うことができます。
詳しい内容についてはリリースノートをご参照ください。
Snowflake Cortex AIで新しいモデルが利用可能になりました
Snowflake Cortex AIの Cortex LLM COMPLETE機能で、 以下の追加モデルをサポートするようになりました。
- jamba-1.5-large
- llama3.2-1b
- llama3.2-3b
jamba-1.5-largeは、財務分析や高度な推論タスクを速度と効率の両立したモデルで、特徴として、256kのコンテキストウィンドウやRAGへの最適化、JSON出力への対応など、より実用的に構築されています。
llama3.2-1系は軽量テキストモデルの立ち位置で、簡単なタスクのコストパフォーマンスを重視する際に用いることが可能です。
詳しい内容についてはリリースノートをご参照ください。
その他アップデート(一部抜粋)
表形式を返すストアドプロシージャをFROM句で呼び出せるようになりました
SELECT構文のFROM句で表形式のデータを返すストアドプロシージャを、以下のように呼び出せるようになりました。
SELECT … FROM TABLE( <stored_procedure_name>( <arg> [ , <arg> … ] )
これにより、CALL句で呼び出す必要がなくなるため、dbtやTROCCOのデータマート転送から直接呼び出せるようになります。
詳しい内容についてはリリースノートをご参照ください。
データが不適合な状態の異常検知モデルの学習が容易になりました
異常検知モデルのML関数に前処理機能が追加され、訓練データの欠落・重複、また不揃いの時間がある場合でも、異常検知モデルを正常にトレーニングできるようになりました。
これまでは実世界のデータでありがちなデータの不整合さ、不適合さ故に訓練の妨げになることがありました。
今回のリリースでは、追加の前処理機能を用いて以下のことが可能になります。
- モデルがイベントの周期性を正しく推測できない場合、自分でその間隔を手動で指定できます。
- 欠損しているデータを、近い時間の値から自動的に補完します。
- 標準的なイベントの間隔から外れて記録されたデータがある場合、そのデータの属性(次元値)をまとめて整理します。これにより、時間的にずれたデータも適切に扱うことができます。集計方法は、値の種類や各列ごとに自分で指定することも、デフォルトの設定を使用することも可能です。
時系列系のデータの前処理については、難易度が高く、特にドメイン特性を理解した上で正しく前処理を行う必要がありますが、それを自動的に代替してくれる機能として、利用可能性がとても高く感じられます。
詳しい内容についてはリリースノートをご参照ください。
DYNAMIC_TABLE_REFRESH_HISTORYビューが利用可能になりました
ACCOUNT_USAGEスキーマ内に新しいDYNAMIC_TABLE_REFRESH_HISTORYが利用可能になりました。
Dynamic Tableの更新履歴に関する情報が提供され、最大で1年間の履歴を保持します。
Dynamic Tableの更新については、一度定義した後はモニタリングする方法が限られていましたが、この新しいビューを用いることで、処理の遅延の発生や無駄なコスト利用などの検知を行うことが可能になります。
Snowflake Cortex AIで新しい多言語埋め込みモデルが利用可能になりました
多言語モデルのvoyage-multilingual-2をサポートするようになりました。
multilingual-e5-largeよりも32kとコンテキストウィンドウが大きく、また日本語、韓国語、フランス語について高い精度を持ち合わせたモデルと報告されています。(参考)
詳しい内容についてはリリースノートをご参照ください。
Apache Icebergテーブルのメタデータ自動更新がプレビューになりました
このリリースで、外部カタログを使用する Apache Icebergテーブルの自動メタデータ更新のプレビュー サポートを発表します。自動更新により、Snowflake は外部 Iceberg カタログを継続的かつサーバーレスでポーリングし、メタデータを最新のリモート変更と同期します。
作成時にREFRESH_INTERVAL_SECONDSオプションを設定することで、外部カタログとの同期を行ってくれます。
詳しい内容についてはリリースノートをご参照ください。
Snowflake管理のApache Icebergテーブルのクローン作成機能がプレビューになりました
このリリースで、Snowflake管理のIcebergテーブルのクローン作成機能のプレビューが利用可能になりました。
通常のテーブルをクローンするように、IcebergテーブルをCLONEすることができるようになります。
詳しい内容についてはリリースノートをご参照ください。
Snowpark に最適化されたウェアハウスにRESOURCE_CONSTRAINTオプションがプレビューになりました
Snowpark に最適化された仮想ウェアハウスのリソース制約機能がプレビューになりました。
元々から仮想ウェアハウスを構築する際に、Snowparkに最適化するオプションは存在していましたが、リソース制約としてCPU・メモリサイズを指定できるようになりました。
Snowparkの利用に際しては、内部リソースを多く使用することが多いため、ワークロードの確保としてオプション機能がついたことはできることの幅が大きくなることに同義です。
詳しい内容についてはリリースノートをご参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
Looker Studioのニュースまとめ
ピボットテーブルの列ヘッダーのテキスト折り返しが可能になりました
ピボットテーブルの列ヘッダーのテキストが長すぎて見づらい場合、テキストを折り返すことができるようになりました。
新たなパートナーコネクタが追加されました
下記のパートナーコネクタがLooker Studioレポートギャラリーに追加されました。
- Meta Ads By Detrics
- Similarweb Rank Tracker By Similarweb
- The Trade Desk By Power My Analytics
- Pinterest Organic By Reporting Ninja
- Salesmate By Salesmate
- Heureka.sk náklady by METRIXANA
- GrowthPlatform by BizSpring
- Google Play Console by Supermetrics
- Facebook Ads by Data Conductor
- LinkedIn Ads by Data Conductor
- Adobe Analytics 2.0 by Windsor.ai
- lemlist by Windsor.ai
- GitLab by Windsor.ai
- ChartMogul by Windsor.ai
- BambooHR by Windsor.ai
- CoinMarketCap by Windsor.ai
- Alpha Vantage by Windsor.ai
- ReQuest by ReGuest Srl
- Insightly by Windsor.ai
- Zendesk Sell by Windsor.ai
- Customer.io by Windsor.ai
- Digistorm by Windsor.ai
- Yahoo Finance by Windsor.ai
ファネルチャートが利用可能になりました
ファネルチャートが新たに利用可能になりました。連続的なプロセスにおける指標の変化を可視化するのに利用できます。
Microsoft Excelコネクタが利用可能になりました
Excelのワークシートにあるデータに接続して利用することができます。
本章の執筆者:鈴木大介(Project Manager)
Looker Studio Proのニュースまとめ
Gemini in Looker対話型分析がパブリックプレビューになりました
対話型分析では、自然言語でデータをクエリすることができます。これによって、自然言語を使用して回答を見つけ、データを探索し、インサイトを共有することを容易に行うことができます。
本章の執筆者:鈴木大介(Project Manager)
dbtのニュースまとめ
dbt Assistの新機能:セマンティックモデル生成機能がベータリリース
dbt Assistのco-pilot機能で、セマンティックモデルの生成ができるようになりました。ドキュメント、テスト、セマンティックモデルの自動生成が可能です。
詳細はdbt Assistを参照ください。
新しい推奨構文:foreign_key制約の定義にrefsを使用
dbt Cloud Versionlessにて、新しいforeign_key制約の推奨構文が利用可能です。
この構文は依存関係を捉え、異なる環境でも機能します。
近日リリース予定のdbt Core v1.9でも提供される予定です。
詳細は公式ドキュメントを参照ください。
セマンティックレイヤーコマンドのdbt Cloud IDE対応
dbt Cloud IDEで、セマンティックレイヤーのコマンドが実行可能になりました。
サポートされているコマンドは以下のとおりです。
dbt sl list
dbt sl list metrics
dbt sl list dimension-values
dbt sl list saved-queries
dbt sl query
dbt sl list dimensions
dbt sl list entities
dbt sl validate
Microsoft Excelとのセマンティックレイヤー連携がGAに
Microsoft Excelとの連携機能が一般利用可能となり、Excel DesktopやExcel Onlineでメトリクスをクエリできます。
Data health tileがGAに
dbt Explorerで Data health tileが利用できるようになり、データの品質や潜在的な課題を一目で把握できます。
詳細は公式ドキュメントをご覧ください。
Model query history機能がプレビューリリース
dbt Cloud Enterprise向けに、dbt ExplorerのModel query history機能がプレビューリリースされました。データウェアハウスのクエリログに基づき、モデルの消費クエリ数を確認でき、重要なデータプロダクトに集中するためのインサイトを得ることを志向したものです。
詳細は公式ドキュメントをご覧ください。
セマンティックレイヤー接続に拡張属性と環境変数の利用が可能
セマンティックレイヤー接続時に拡張属性と環境変数が利用可能になりました。
セマンティックレイヤーCredentialsで直接設定された値が優先されます。
現在、exports利用時の環境変数のジョブ上書きは未対応ですが、今後サポートされる予定です。
新しい環境変数のデフォルト設定
以下の2つの環境変数にデフォルト設定が追加されました。
DBT_CLOUD_ENVIRONMENT_NAME
DBT_CLOUD_ENVIRONMENT_TYPE
Amazon Athenaデータウェアハウス接続がパブリックプレビュー
dbt CloudをVersionlessにアップグレードしたアカウント向けに、Amazon Athenaのデータウェアハウス接続がパブリックプレビューで利用可能になりました。
本章の執筆者:西山徹(Senior Product Manager)
Tableauのニュースまとめ
Tableau Desktop 2024.3はまだComing soonながら、Cloudで一部先んじて実装されているようです。
Tableau Cloud – 空間パラメータが利用可能に
従来のパラメータ機能の種類のひとつとして「空間」が選択できるようになりました。
WKT形式の値を渡して使用することで、空間データからの計算が可能になります。
作成したパラメータと空間演算子(DIFFERENCE、INTERSECTION、SYMDIFFERENCE、UNION)を使用した計算フィールドを作成できます。
例えば2つの領域の交差する領域を可視化する、といったことが可能になります。
※値はWKTである必要があります。
サンプルスーパーストアのCountryなどは、地理的役割が与えられているもののデータとしてはあくまでテキスト型であるため、パラメータ作成時に値の追加元として使用できません。
詳細は公式ドキュメントをご覧ください。
Tableau Cloud – Einstein Copilot for Tableau:Viz作成のサジェスト機能
Einstein Copilotとの会話ペインに、データを掘り下げるための質問が表示されるようになりました。
選択すると、質問に答えるようなVizを自動で作成します。
詳細は公式ドキュメントをご覧ください。
Tableau Cloud – Snowflakeとの接続時にキーペア認証が選択可能になりました
コネクタとしてSnowflakeを選択した際の、認証方法の選択肢に追加されています。
詳細は公式ドキュメントをご覧ください。
Tableau Cloud – 新しいコネクタIBM informixが追加されました
IBM informixがコネクタとして新たに追加されました。詳細は公式ドキュメントをご確認ください。
その他のアップデート情報は、公式のリリースダッシュボードをご参照ください。
本章の執筆者:片貝桃子(Data Analyst)
Databricksのニュースまとめ
Meta Llama 3.1 405B Instruct が Databricks Function Callingでサポート
Meta Llama 3.1 405B Instruct がDatabricks Function Callingでサポートされるようになりました。
vector_search()がMosaic AI Vector Searchが提供されているリージョンのユーザー向けにPublic Previewリリース
vector_search()関数がMosaic AI Vector Searchが提供されているリージョンのユーザー向けにPublic Previewリリースされました。これまではリクエストベースで開放されていた機能でしたが、リクエストなしで利用が可能になります。
vector_search() の機能の詳細については公式ドキュメントをご確認ください。
Amazon Bedrock向け外部モデルがインスタンスプロファイルをサポート
External modelがAmazon Bedrockからモデルを使用する際に、AWSリソースにアクセスするためのインスタンスプロファイルをサポートするようになりました。
詳細は公式ドキュメントをご覧ください。
Emergency Accessでシングルサインオンが不要に
Databricksアカウント管理者は、シングルサインオンが構成されていなくても、最大20人のユーザーに対して緊急アクセスを設定できるようになりました。
これらのユーザーは、FIDO 2セキュリティキーやモバイル認証アプリを使った多要素認証でDatabricksにサインインできます。
詳細は公式ドキュメントをご確認ください。
Meta Llama 3.2 3Bと1BモデルがModel Servingでサポート開始
Meta Llama 3.2 3Bおよび1Bモデルが、Foundation Model APIs provisioned throughputでサポートされるようになりました。
Meta Llama 3.2 3Bと1BモデルがMosaic AI Model Trainingでサポート開始
Meta Llama 3.2 3Bおよび1Bモデルが、Mosaic AI Model Trainingでサポートされるようになりました。サポートされているモデルの一覧は公式ドキュメントをご確認ください。
Publish to Power BIがGAに
Databricksのテーブルやスキーマから直接Power BIサービスにセマンティックモデルを公開できる「Publish to Power BI」機能がGAになりました。詳細は公式ドキュメントをご覧ください。
AI Playgroundでツールを呼び出すGenAIエージェントのプロトタイプ作成とエクスポートが可能に
AI Playgroundを使用して、ツールを呼び出すGenAIエージェントのプロトタイプを作成し、エクスポートできるようになりました。エージェントにUnity Catalogの関数をツールとして提供し、AI Playground内で直接やり取りできます。詳細は公式ドキュメントをご覧ください。
Unity CatalogのEXTERNAL USE SCHEMA特権で外部アクセスを制御可能に
新しいEXTERNAL USE SCHEMA特権により、IcebergクライアントやMicrosoft FabricがUnity CatalogのAPIを使用してデータにアクセスする際に外部処理エンジンのデータアクセスを制限できます。
Databricks AssistantのQuick Fixがインラインでコードデバッグをサポート
Assistant Quick Fixは、コード実行時にエラーが発生した際、単一行の修正を提案し、修正を受け入れることでコードの実行を続行できます。詳細は公式ドキュメントをご確認ください。
AI GatewayがPublic Previewに
Mosaic AI GatewayがPublic Previewとしてリリースされました。
このサービスは、生成AIモデルの使用や管理を効率化し、アクセス制御、モニタリング、プロダクション対応を実現します。アクセス制御、ログ記録、使用状況追跡、AIガードレール、トラフィックルーティングなどの機能が含まれています。
AI生成のコメントサポートを拡張
テーブルやテーブル列に加えて、カタログ、スキーマ、関数、モデル、ボリュームにもAI生成のコメントが追加できるようになりました。
Visual Studio Code用Databricks拡張がGA
Visual Studio Code用のDatabricks拡張がGAされました。これにより、VSCode IDEからリモートのDatabricksワークスペースに接続し、ノートブックのデバッグやジョブの実行などが可能になります。詳細は公式ドキュメントをご覧ください。
システムテーブルがGA
DatabricksのシステムテーブルプラットフォームがGAになりました。
これには、system.billing.usageおよびsystem.billing.list_priceテーブルのGAリリースが含まれています。詳細は公式ドキュメントをご確認ください。
本章の執筆者:西山徹(Senior Product Manager)
TROCCO®のニュースまとめ
ワークフロー定義
フロー編集時にタスクの自動レイアウトが可能に
フロー編集時に自動レイアウトをクリックすると、ワークフロータスクが自動的に整列されるようになりました。
TROCCO API
TROCCO APIでデータマートジョブを実行できるように
TROCCO APIで任意のデータマート定義を指定し、ジョブを実行できるようになりました。詳しくは、データマートシンクジョブ実行を参照ください。
転送設定
入力ファイル形式のParquet対応
下記の転送元コネクタにおいて、Parquetの転送に対応しました。
詳しくは、入力ファイル形式の設定についてを参照ください。
接続情報
HTTP・HTTPS接続情報でカスタムパラメータの設定が可能に
HTTP・HTTPS接続情報の作成時に、カスタムパラメータを追加できるようになりました。
これにより、接続先APIの仕様に応じた特定のパラメータをリクエストに含めることができるようになります。
詳しくは、HTTP・HTTPSの接続情報を参照ください。
Google BigQueryおよびGoogle Cloud Storage接続情報のサービスアカウント認証にてプロジェクトIDを指定できるように
Google BigQueryおよびGoogle Cloud Storage接続情報のサービスアカウント認証に関して、これまではサービスアカウントを作成したプロジェクトが指定される仕様でした。
今回の変更で、サービスアカウントが権限を持つプロジェクトの一覧からプロジェクトIDを選択できるようになりました。
UI・UX
markdownエディタにてtabキーでインデントを追加できるように
転送設定やデータマート定義などのメモ欄は、markdown記法に対応しています。
このようなmarkdown記法に対応した箇所について、tabキーでインデントを追加、shift+tabキーでインデントを削除できるようになりました。
本章の執筆者:西山徹(Senior Product Manager)
COMETAのニュースまとめ
Tableau連携のリリース
COMETAが新たにTableauと連携できるようになりました。
COMETAは、以下のリソースに関するメタデータやリソース間の関連情報を自動取得します。
ユーザーは、COMETA上でこれらを閲覧できます。
- Tableauワークブック
- Tableauダッシュボード
- Tableauデータソース
- Tableauフィールド
更新日時や所有者などの情報をもとにデータソースの信頼性を判断したり、関連するダッシュボードやプロジェクトの情報から、データソースの変更がどのリソースに影響を与えるかを変更前に把握できるようになります。
メタデータエクスポートの対象を絞り込めるように
データベース(プロジェクト)・スキーマ(データセット)を指定することで、エクスポートの対象となるアセットを絞り込んでメタデータをエクスポートできるようになりました。
本章の執筆者:廣瀬智史(Head of of Product Management)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。