本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、鈴木大介、山本健太、片貝桃子、西山徹、廣瀬智史 |
Google BigQueryのニュースまとめ
パイプ構文が使用できるようになりました(プレビュー)
パイプ構文はパイプ記号(|>)を使って処理を記述します。
標準の構文とは異なり、フィルタリングや集計、結合などを任意の順番で任意の回数記述することができるためアドホックな分析などに活用できます。
2024年10月現在、パイプ構文を使用するには登録フォームでの登録が必要です。
詳細は公式ドキュメントを参照ください。
オーケストレーションページでnotebook、Airflow DAGsのオーケストレーションができるようになりました(プレビュー)
BigQueryのオーケストレーションページ上でnotebookのスケジュール管理、Airflow DAGsの表示、トリガー、一時停止が可能です。
詳細は下記公式ドキュメントを参照ください。
- https://cloud.google.com/bigquery/docs/orchestrate-notebooks
- https://cloud.google.com/bigquery/docs/orchestrate-dags
BigQuery data preparationが利用できるようになりました(プレビュー)
BigQuery上でGeminiによるデータのクリーニング、変換などに関する提案、適用が可能になります。
また増分更新を含む宛先テーブルへの書き込みや処理のスケジュール実行も可能です。
詳細は公式ドキュメントを参照ください。
本章の執筆者: 今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
Cortex SearchがGAになりました
高品質の検索と大規模言語モデル (LLM) チャットボットアプリケーションの開発を簡素化するテキスト検索サービスである、Cortex SearchがGAになりました。
Cortex Search は、RAG チャットボットの検索サービスとして、またはスタンドアロンの検索エンジンとして使用できます。
GAにはなりましたが、引き続き英語のみに最適化されている他、パフォーマンス起因によるサイズの上限などがあります。
詳しい内容についてはリリースノートをご参照ください。
Container Runtime上でSnowflake Notebooksが利用できるようになりました
このリリースで、Container Runtime を介して、Snowpark Container Services で Snowflake Notebooks を実行できるようになりました。
現在はプレビュー段階ですが、CPUとGPUの2種類のランタイムを選ぶことができ、既にSnowflake側で検証及び統合されたPythonパッケージとバージョンの基本セットが含まれているので、すぐに始めることができます。
詳しい内容についてはリリースノートをご参照ください。
Cortex Analyst と Cortex Searchが統合利用可能になりました
Cortex Analyst を Cortex Search と統合して、文字列検索を改善し、Cortex Analyst がより正確な SQL クエリを生成できるようになりました。
具体的には、Cortex Search サービスを作成して、基盤となるデータベース列に対してセマンティック検索を実行し、ユーザーの質問に答える SQL クエリで Cortex Analyst が使用するために必要な値を見つけることができます。
詳しい内容についてはリリースノートをご参照ください。
Apache IcebergテーブルのSnowflake Open CatalogがGAになりました
Snowflake は、Snowflake の Apache Iceberg™ テーブルと、以前は Polaris Catalog と呼ばれていた Snowflake Open Catalog との統合がGAになりました。
GAにあたり、以下の機能が更新されました。
- サービス管理者が、Open Catalog アカウントに追加のユーザーを作成できるようになりました。
- カタログ管理者は、カタログ内の個別の名前空間またはテーブルを保護できるようになりました。カタログ レベルでカタログを引き続き保護することもできます。
- Open Catalog の課金サポートが追加されましたが、Open Catalog は 2025 年 4 月 30 日まで無料でご利用いただけます。
Document AIがGAになりました
OCRとして機能するDocument AIは、請求書や契約書などのドキュメントから情報を抽出し、それを運用ワークフローに直接適用することで、Snowflake 内でインテリジェント ドキュメント処理 (IDP) ワークフローを設定できます。
Document AI は、独自の大規模言語モデル (LLM) である Snowflake Arctic-TILT (Text Image Layout Transformer) を搭載しています。
詳しい内容についてはリリースノートをご参照ください。
Hybrid TableがGAになりました
単一のデータベース内でトランザクションと分析の両方のユースケースの実行をサポートするHybrid TableがGAになりました。
アプリケーションDBとしての利用を念頭におきながら、分析を行うためのワークロードにも耐えうる設計になっています。
詳しい内容についてはリリースノートをご参照ください。
Snowflake の Streamlit における Amazon Web Service PrivateLinkがGAになりました
Snowflake内でデプロイされているStreamlitアプリケーションとSnowflakeオブジェクトとのやりとりをパブリックインターネットを経由せずに、AWS内の直接的な専用線内のみで完結することができる機能がGAになりました。
これにより、アプリケーションのデプロイにおけるセキュリティ要件が厳しい場合でも適合することができます。
詳しい内容についてはリリースノートをご参照ください。
その他アップデート(一部抜粋)
Fine Tuningしたモデルを共有できるようになりました
自身でFine Tuningを行い、調整したモデルをData Sharingの仕組みを用いて、共有できるようになりました。
Fine Tuning自体はSNOWFLAKE.CORTEX.FINETUNE関数を用いて、行うことができます。
詳しい内容についてはリリースノートをご参照ください。
Cortex LLM関数として、PARSE_DOCUMENTが利用可能になりました
ドキュメントからテキストとレイアウトを抽出するための新しい Snowflake Cortex LLM関数の1つとして、PARSE_DOCUMENT関数が利用可能になりました。
PARSE_DOCUMENT関数は、強力な光学式文字認識 (OCR) 機能と機械学習モデルを組み合わせて、文章やテーブルに保存された情報、PDFドキュメントの構造要素を識別することができます。
単体の運用を始め、RAGアプリケーションとして利用することも想定されています。
詳しい内容についてはリリースノートをご参照ください。
Native AppでAmazon Web Service PrivateLinkが利用可能になりました
Snowflake Native App フレームワークで AWS PrivateLinkが利用可能になりました。
AWS PrivateLinkは、パブリックインターネットを経由せずに AWS VPC と Snowflake VPC 間の直接的で安全な接続を可能にするプライベート VPC エンドポイントを作成するための AWS サービスです。
これを用いることでSnowflake上にデプロイされたNative AppとAWSサービスを安全に接続することが可能です。
詳しい内容についてはリリースノートをご参照ください。
Snowflake REST APIがGAになりました
リソース管理用APIとして Snowflake REST API がGAになりました。
ユーザーが Snowflake Data Cloud 内のさまざまなリソースをプログラムで操作および制御できるようにするエンドポイントのセットが提供されています。
またGAに伴い、サービスおよびコンピューティング プール API の PUT エンドポイント追加や、アカウントやカタログ統合、ユーザー定義関数などきめ細やかな設定を行うことができるようになっています。
詳しい内容についてはリリースノートをご参照ください。
AWS PrivateLink と Azure Private Link を使用した Snowpark からの外部ネットワーク アクセスの機能がGAになりました
外部ネットワーク アクセスを構成し、プライベート エンドポイントを作成して、プライベート接続を使用して、Snowpark 内の UDF/UDTF またはストアド プロシージャから外部ネットワークの場所に接続する機能がGAになりました。
Snowflake アカウントは AWS PrivateLink を使用して外部ネットワークの場所にアクセスでき、Azure 上の Snowflake アカウントは Azure Private Link を使用できます。
詳しい内容についてはリリースノートをご参照ください。
合成データを生成するための新しいシステムストアドプロシージャのGENERATE_SYNTHETIC_DATAが利用可能になりました
テストや開発時の検証等で、できるだけ元データに近いデータを利用したいが、機密情報や制約などで利用できないことがあるかと思います。
このストアドプロシージャは、合成データ生成機能を利用することができ、元のデータに非常に近いリアルなデータセットをプログラムで作成できます。これにより、テストや検証などのさまざまなワークロードにわたって機密情報や制限情報を表すことができます。
詳しい内容についてはリリースノートをご参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
Looker Studioのニュースまとめ
新しい検索広告360コネクタで新たなカートコンバージョンフィールドが利用可能になりました
新しい検索広告360コネクタで以下のカートコンバージョンフィールドが利用可能になりました。
- 注文数(カート)
- 平均カートサイズ
- 平均注文単価
- クロスセル売上原価
- クロスセル粗利
- クロスセル売上
- クロスセル販売ユニット数
- リード売上原価
- リード粗利
- リード売上
- リード販売ユニット数
- 売上原価
- 粗利
- 売上(カート)
- 販売ユニット数(カート)
新たなパートナーコネクタが追加されました
下記のパートナーコネクタがLooker Studioレポートギャラリーに追加されました。
- Heureka.sk Sortiment report by METRIXANA
- Auth0 by Windsor.ai
- CJ Affiliate by Supermetrics
- WooCommerce by Supermetrics
- TikTok Ads by Detrics
- Oktopost by Oktopost
- Jepto – GMB/GBP Free by Jepto
- Instagram Insights by Detrics
- Bing Ads by Detrics
- LinkedIn Ads by Detrics
- X Ads (Twitter) by Detrics
- Insites by Insites
- LinkedIn Ads by Pro Plugg
- TikTok Organic by Power My Analytics
- Nightwatch SEO Tracker by Nightwatch
- MongoDB AppiWorks by Jivrus Technologies
- Google Merchant Center by Adformatic
ピボットテーブルの行見出しのテキスト折り返しが可能になりました
ピボットテーブルのグラフで、スタイルタブにある行見出しの「テキストを折り返す」オプションを有効にすることで、行見出しのテキスト折り返しができるようになりました。
本章の執筆者:鈴木大介(Product Marketing Manager)
dbtのニュースまとめ
Coalease 2024での新機能発表
dbt Labsの主催するカンファレンス Coalease 2024 にて、多くの新機能が発表されました。
- SnowflakeのIceberg テーブル対応
- dbt Cloud がAzureでのホスティングに対応
- Advanced CI
- Python SDK
- etc
詳しくは公式ドキュメントをご参照ください。
多要素認証(MFA)の必須化
usernameとpasswordを使用する認証において、多要素認証が強制されます。
ユーザーAPIトークンが非推奨に
User APIトークンは非推奨となり、personal access tokenの利用が推奨となります。
署名付きコミットのサポート
Enterpriseプランにおいて、Gitの署名付きコミットがサポートされました。サポートされているGitプロバイダーはGitHubとGitlabです。
dbt Mesh
dbt Mesh を使用すると、プロジェクト間で双方向の依存関係を有効にできるようになりました。これまで、dbt は依存関係を一方向にのみ強制していました。dbt はプロジェクト間で循環をチェックし、検出された場合はエラーを発生させます。
詳細については、公式ドキュメントを参照してください。
dbt Semantic Layer Python SDK がGAに
ユーザーは Python を使用して dbt セマンティック レイヤーに簡単にアクセスでき、開発者は dbt セマンティック レイヤー API と対話して下流のツールでメトリック/ディメンションをクエリできるようになります。
データ更新戦略にマイクロバッチ増分モデルを選択できるように(beta)
データ更新方式にて、microbatch incremental model strategyが選択できるようになりました。これにより、大規模な時系列データセットを効率的にバッチベースで処理できるため、新しいレコードが毎日追加されるようなデータを扱う場合に、パフォーマンスと回復力が向上します。
dbt Semantic Layer(MetricFlow)でカスタムカレンダーが利用可能に(Preview)
これにより、会計年度など、通常と異なる区切りでの期間クエリが設定できるようになりました。
primary_keyの推測機能
設定されたデータテストやmanifest.jsonの内容から、モデルのprimary_keyを推測する機能が提供開始されました。推測されたprimary_keyは、dbt Explorerにて可視化されます。
信頼シグナルアイコン(Preview)
dbt Explorer に信頼シグナル アイコンが追加されました。信頼シグナルを使用すると、Explorer で dbt モデルを参照するときに、データの健全性を一目ですばやく確認できます。健全性はHealthy、Caution、Degraded、またはUnknown のいずれかで表現されます。
Auto exposures機能(Preview)
Auto-exposures機能が利用可能になりました。Tableauダッシュボードなどの下流の分析ツールにてモデルが利用されている場合に、リネージを可視化することができます。
その他、いくつかの仕様変更や修正がリリースされました。
詳細は10月のリリースノートをご参照ください。
本章の執筆者:山本健太(Chief Integration Officer)
Tableauのニュースまとめ
10月にTableau 2024.3がリリースされました。
すべてのアップデートは公式サイトをご参照ください。
Tableau Cloud – Tableau Cloud Managerがリリース
サイトを複数持つことが可能になり、サイト管理者はユーザーの権限管理などをTCMを通じて行うことができるようになりました。
これまでは購入ライセンスに対し1サイトのみでしたが、Standardプランで3つまで持つことが可能になっています。
Tableau Desktop – 表のViz拡張機能がリリース
Viz拡張機能に「表のViz拡張」が追加されました。
表に対して、データバーやカラースケールといったExcelライクな表現が可能になりました。
列ごとのデータ型に応じた簡易フィルタ表示や、Excelとしてのダウンロードボタン表示といった機能もあります。
詳細は拡張機能についての公式ドキュメントをご覧ください。
Tableau Desktop – パブリッシュされたデータソースのデータモデル表示が可能に
パブリッシュされたデータソースを接続した場合のデータソース画面にも、データモデルが表示されるようになりました。
これまでは、パブリッシュされたデータソースに接続した場合、Desktopではデータモデルが表示されず、項目一覧が確認できるのみでした。
確認したい場合はCloud上でパブリッシュされたワークブックを参照する必要がありましたが、Desktopでも表示されるようになりました。
Tableau Desktop – 空間パラメータの利用が可能に
先月にCloudで先行して公開されていることを紹介しましたが、パラメータに渡すことができる値の種類として「空間」が選択できるようになりました。
例えばBUFFER関数と空間パラメータを組み合わせると、中心座標から半径5㎞の円、などを描画することができるようになります。
詳細は公式ドキュメントをご覧ください。
Tableau Cloud/Desktop/Pulse – Microsoft Teams用のTableauアプリがリリース
Teams用のTableauアプリがリリースされました。Teamsを介してTableau CloudやPulseの共有がしやすくなります。
MicrosoftのAppSourceから入手可能です。
Tableau Desktop – TabPyのカスタム関数エクスプローラーが利用可能に
TabPyは、TableauでPythonのスクリプトや関数を実行可能にする分析拡張機能で、翻訳関数の実装や、高度な統計分析や予測モデルの利用が求められる場合に有用です。
カスタム関数エクスプローラーでは、デプロイ済みモデルの一覧と詳細情報が表示され、TabPyをより活用しやすいインターフェースが提供されています。
詳細は公式ドキュメントをご覧ください。
本章の執筆者:片貝桃子(Data Analyst)
Databricksのニュースまとめ
Databricks AssistantでSQLクエリの最適化を支援
Databricks Assistantに `/optimize` スラッシュコマンドが追加されました。
SQLクエリの非効率な部分を特定し、リアルタイムに修正してくれます。
Databricks Runtime 15.1シリーズのサポート終了
Databricks Runtime 15.1およびMachine Learning向けの同バージョンのサポートが10月30日で終了しました。詳細はsupport life cycleを参照してください。
Foundation Model APIsでLlama 2 70B Chatモデルがサポート終了
Llama 2 70B ChatモデルがFoundation Model APIsのpay-per-tokenエンドポイントでサポート終了となりました。推奨される代替モデルについては、retired modelsを参照してください。
新しいワークスペースに自動的にメタストアを割り当て可能に
アカウント管理者は、新しいワークスペース作成時に同一リージョン内でUnity Catalogのメタストアを自動割り当てできるようになりました。
これによりデフォルトでUnity Catalogが有効になります。詳しくは公式ドキュメントをご確認ください。
Mosaic AI Model Servingで構造化出力をパブリックプレビューにて提供開始
Mosaic AI Model Servingで構造化出力がサポートされ、チャットモデルから生成されるレスポンスをJSONスキーマでフォーマット指定できるようになりました。詳しくは公式ドキュメントをご確認ください。
single user computeにてFine-grained access controlがGA
Databricks Runtime 16.0以上で、single user computeのFine-grained access contrilがGAになりました。以下のようなビューやフィルターが適用されたテーブルへのクエリがサーバーレスコンピュートで実行されるようになります。
- ダイナミックビュー
- 行フィルターやマスキングが施されたテーブル
- マテリアライズド・ビューやストリーミングテーブル
詳しくは公式ドキュメントをご確認ください。
サーバーレス使用量をbudget policiesでタグ付け可能にする機能がパブリックプレビューに
サーバーレス使用量の課金を明確化するために、ユーザー、グループ、またはサービスプリンシパルにbudget policiesを作成および割り当てることができるようになりました。ポリシーの割り当て対象により、カスタムタグがすべてのサーバーレス使用量に適用され、ノートブック、ジョブ、パイプラインでの使用量の詳細な課金状況の取得が可能になります。
billing usage system テーブルにネットワークコストの項目を追加
billing usage systemテーブルにサーバーレスコンピュートとリソース間の接続によるコストを監視するためのフィールドが追加されました。
詳しくは公式ドキュメントをご確認ください。
Databricks Assistant AutocompleteがGAに
コードを入力する際にインラインでのコード補完を提供し、より迅速かつ効率的にコードを書くことを支援してくれるAssitant AutocompleteがGAになりました。詳しくは公式ドキュメントをご確認ください。
Databricks Appsがパブリックプレビューに
Pythonフレームワークを活用したアプリケーションを構築し、Unity CatalogやDatabricks SQLなどのDatabricksリソースを利用可能にするためのDatabricks Appsがパブリックプレビューになりました。詳しくは公式ドキュメントをご確認ください。
Salesforceコネクタの簡略化
Salesforceコネクタが自動化され、以前は手動での設定が必要だったソースセットアップが簡略化されました。
詳しくは公式ドキュメントをご確認ください。
本章の執筆者:西山徹(Senior Product Manager)
TROCCO®のニュースまとめ
ワークフロー定義で過去の変更内容を復元できるように
ワークフロー定義詳細画面の変更履歴タブから、過去の変更内容を復元できるようになりました。復元したいリビジョンの詳細設定・復元をクリックするとリビジョン詳細画面が表示されます。差分を確認し、設定を復元をクリックすると、そのリビジョン時点の設定に戻すことができます。
ワークフロー定義の変更履歴が確認できるように
ワークフロー定義詳細画面に変更履歴タブを追加しました。
これにより、ワークフロー定義の変更履歴を確認できるようになりました。
Snowflake接続情報にてキーペア認証が推奨に・接続確認できるように
接続情報を作成・編集する際の認証方式において、ユーザー・パスワード認証が非推奨になりました。
キーペア認証でも事前に接続を確認できるようになりましたので、今後はキーペア認証をご利用ください。
ユーザーAPIを追加
TROCCO APIでユーザー情報に関する以下の操作を行えるようになりました。
APIアップデート: 転送元Yahoo!検索広告・転送元Yahoo!ディスプレイ広告(運用型)
転送時に使用するYahoo!広告 APIのバージョンを、v12からv13へアップデートしました。
新バージョンについて、それぞれ以下のドキュメントを参照ください。
本章の執筆者:西山徹(Senior Product Manager)
COMETAのニュースまとめ
dbtメタデータ連携
COMETAが新たにdbtと連携できるようになりました。
これにより、COMETA上のテーブル・カラムにdbtに関するメタデータを付与できます。
ユーザーは、dbtに関するメタデータ情報をアセット情報画面のテーブル情報タブ・カラム情報タブで確認できます。
また、dbtを使用したカラムリネージをリネージタブで閲覧できます。
詳しくはdbtメタデータ連携を参照ください。
アセット一覧のツリー上で選択中のアセットにすばやくアクセスできるように
タブで開いているアセットがアセットツリーに表示されている場合、アセット名をハイライトし、その位置までスクロールするようになりました。
グローバルメニューに組織名が表示されるように
アカウントに組織名が設定されている場合、グローバルメニューに組織名が表示されるようになりました。
アカウントに組織名を設定する方法については、組織名についてを参照ください。
BigQueryのビュー・マテリアライズドビューでプレビューが可能に
Google BigQueryにおいて、これまではテーブルのみプレビューに対応していましたが、ビューおよびマテリアライズドビューに対してもプレビューを表示できるようになりました。
本章の執筆者:廣瀬智史(Staff Product Manager)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。