本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開時にメール通知をご希望の方は、こちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 小宮山誉人、庵原崚生、若松拓夢、鈴木大介、西山徹、大内圭 |
---|
Google BigQueryのニュースまとめ
カラム単位のデータポリシー適用がプレビューになりました
BigQuery で各カラム(列)に対してデータポリシーを直接設定できるようになりました。
これにより、個人情報や機密データなど特定のカラムに対して、これまで個別に設定され、管理されてきたアクセス制御やマスキングルールといった各種規則を、一元的に関連付けられるようになります。
ガバナンスやコンプライアンス対応を容易にし、管理の粒度を高めることが可能になります。
Gemini for Google Cloud API がBigQueryでデフォルトで有効化されるようになりました
BigQuery のコンソール上で Gemini の SQL 生成・補完やデータキャンバスなどが制限付きで無料で使えるようになりました。
デフォルトで有効化されるため、追加の API 手続きなしで Gemini モデルをすぐに試せるほか、環境ごとの API 管理が不要になるので運用コストを削減できます。
必要に応じて Cloud Console の API とサービス > ライブラリ から無効化または再有効化が可能です。
CSV 用 CREATE EXTERNAL TABLE / LOAD DATA に新オプションが追加されました(プレビュー)
以下のオプションがプレビューになりました。なお、CSV ファイル限定で利用できます。
- null_markers:指定した文字列を NULL として扱えます
- source_column_match:「NAME」または「POSITION」を指定して、ロード時に列をスキーマへ名称一致または位置一致でマッピングできます
これにより、 一部の NULL 処理に関する前処理が不要になり、列順の変更があってもヘッダー名でロードできるため、ETL の柔軟性が向上します。
パイプ構文の機能が拡張されました
BigQuery のパイプ構文で、以下の構文が利用可能になりました。
- DISTINCT:`|> DISTINCT` を挟むだけで重複行を排除できます。`SELECT DISTINCT` と同等ですが、パイプの任意位置に配置できるため処理ステップを直観的に表現できます
- WITH:`|> WITH alias AS (query)` でCTE を定義できます。クエリ分割・再利用が簡単になります
- named windows:ウィンドウ関数と似ており結果の各行で共通して表示する集計を定義できます
本章の執筆者:小宮山誉人(Data Analyst)
Snowflakeのニュースまとめ
外部管理IcebergテーブルでのDynamic Tablesサポートが一般提供開始されました
外部カタログ(AWS Glueなど)で管理されているIcebergテーブルをソースとして、Dynamic Tableを作成する機能が一般提供されました 。これにより、外部データレイク上のデータをSnowflakeに複製することなく、継続的なデータ変換パイプラインを構築できます。外部エンジン(Sparkなど)によって更新されるデータを、Snowflake上でニアリアルタイムに処理し、常に最新の状態に保つといったユースケースが実現可能になります。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
外部管理Icebergテーブルへの書き込みサポートがプレビュー開始されました
これまで読み取り専用だった外部管理のIcebergテーブルに対して、Snowflakeから直接書き込み(INSERT, UPDATE, DELETE, MERGE)や新規テーブル作成が可能になる機能がプレビューとして登場しました 。これにより、Snowflakeと外部のIcebergエコシステム(Spark, Flinkなど)間での双方向のデータ連携が実現します。例えば、Snowflakeで加工したデータを外部のIcebergテーブルに書き戻し、他のエンジンで利用するといった、より柔軟なデータアーキテクチャの構築が可能になります。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
Snowpipe Streamingの事前クラスタリング機能が追加されました
Snowpipe Streamingでデータをテーブルに取り込む際に、事前にクラスタリングキーに基づいてデータをソートする機能がプレビューとして追加されました 。これにより、データがテーブルにコミットされる前にソートされるため、その後のクエリパフォーマンスが大幅に向上します。特に、ストリーミングデータのように到着順序が保証されないデータを扱う場合に、テーブルの物理的なデータ配置を最適化し、分析クエリの効率を高める効果が期待できます。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
標準テーブルでの構造化データ型のサポートが一般提供開始されました
5月にプレビュー提供されていた、標準のSnowflakeテーブルで構造化データ型(OBJECT
やARRAY
)をカラムとして定義できる機能が一般提供されました 。これにより、JSONのような半構造化データをVARIANT
型として格納するだけでなく、スキーマを明確に定義したネスト構造を持つデータをテーブルで直接扱えるようになります。データモデリングの柔軟性が向上し、より直感的なクエリ記述が可能になります。
詳しい内容はリリースノート・公式ドキュメントを参照ください。
その他アップデート(一部抜粋)
Cortex AI関連機能の拡充が行われました
AIの利用状況を監視するAI Observability
、Microsoft Teamsと連携するCortex Agents integration
、オブジェクトに自動で説明を付与するCortex Powered Object Descriptions
など、Cortex AI関連の機能が多数リリースされ、プラットフォームのインテリジェンスがさらに強化されています 。
詳しい内容はリリースノートを参照ください。
Native AppsのMLモデルサポートが一般提供開始されました
Snowflake Native Apps内で、Snowflake MLでトレーニングされたモデルを直接利用できるようになりました 。これにより、機械学習機能を組み込んだアプリケーションの開発と配布が容易になります。
詳しい内容はリリースノートを参照ください。
本章の執筆者:庵原崚生(Senior Data Engineer)
AWSのニュースまとめ
Amazon Q in QuickSight のトピック向けカスタム指示が一般提供開始されました
Amazon Q in QuickSight で Q&A トピック向けカスタム指示が提供開始されました。Amazon Q in QuickSight には Q&A 機能があり、指定したデータセットに対してテキストで質問を投げかけることで、その質問に基づく答えを得られます。答えを確認しながらデータの理解を深めて改善のアクションにつなげられる形です。
今回のアップデートで、Q&A の回答の精度を上げやすくするためのカスタム指示ができるようになりました。企業固有の同義語などをカスタム指示に指定することで、特有の用語や定義に基づいた回答を生成しやすくなりました。
例えば「売上」と「レベニュー」を同義語として設定することで、どちらの用語で質問されても適切な回答を返すことが可能です。Pro Author と Pro Admin の 2 ユーザーが利用できます。詳細はこちらのドキュメントをご参照ください。
Amazon S3 が Apache Iceberg テーブル向けに Apache Avro および ORC 形式のコンパクション機能をサポート開始しました
Amazon S3で Apache Iceberg テーブルのコンパクション機能が拡張され、従来の Parquet 形式に加えて Apache Avro と ORC 形式もサポートされました。コンパクション機能は、複数の小さなオブジェクトをより少ない大きなオブジェクトに結合することで、パフォーマンスの向上をしやすくする機能です。
例えば、日次購入取引、ストリーミングセンサーデータ、広告インプレッション収集などのデータ取り込みおよびストリーミングユースケースにおいて、書き込みパフォーマンスを向上させるために Avro を使用しながら、コンパクション機能も活用できます。
詳細はこちらのドキュメントをご参照ください。
本章の執筆者:若松拓夢(Data Analyst)
Looker Studioのニュースまとめ
BigQuery データソースのパフォーマンスが向上しました
レポートで BigQuery データソースを使用すると、レポート閲覧者はパフォーマンスの向上に気付く場合があります。BigQueryコネクタはショートクエリ最適化モードをサポートしています。
このモードでは、BigQueryはクエリを迅速に完了できると判断した場合、BigQueryジョブを作成するのではなく、即時の結果を返すことを優先します。
ショートクエリ最適化モードは、以下の状況で適用される場合があります。
- データソースが閲覧者の資格情報を使用する場合
- データソースが所有者の資格情報を使用しているが、自分が資格情報の所有者ではない場合
データ ソース資格情報所有者のユーザー エクスペリエンスやレポートの動作に変更はありません。
レポートへの説明追加機能が追加されました
レポートにテキストによる説明文を追加できるようになりました。これにより、レポート検索ではタイトルだけでなく説明文も検索対象となり、目的のレポートをより見つけやすくなります。
その他のアップデート
直交チャートの新しい整列オプションが追加されました
新たに追加された 「グリッドに整列」 設定により、チャートの凡例(ラベル)をチャートタイトルではなく、チャートのグリッド位置に合わせて整列できるようになりました。
この設定は、モダンチャートが有効化されているレポート内の直交チャート(Cartesian charts)に対して利用可能です。
新しいレポートキャンバスサイズが追加されました
画面上でレポートの幅と高さを制御できるように、2つの新しいプリセットキャンバスサイズオプションが利用可能になりました。
新たに追加されたオプションは、A4サイズ(縦向きおよび横向き) です。
詳しくは、レポートやページのレイアウトオプションに関するヘルプをご参照ください。
画像の代替テキスト入力欄が追加されました
レポート内の画像に対して代替テキスト(altテキスト)を追加できるようになり、
スクリーンリーダーによる読み上げに対応することで、アクセシビリティが向上しました。
代替テキストの記述方法については、WCAG(Web Content Accessibility Guidelines)ガイドラインをご参照ください。
Lookerコネクタが機能強化されました
追加の計算フィールド関数がプレビューで利用できるようになりました。
フィルターによるチャートのハイライト機能が追加されました
「適用されたフィルター」パネルで、任意のフィルターをクリックすると、そのフィルターが適用されているすべてのチャートがハイライト表示されるようになりました。
これにより、フィルターの影響範囲を視覚的に把握しやすくなります。
閲覧者権限でも不適切なコンテンツの報告が可能になりました
Looker Studio のレポート閲覧者は、不適切なコンテンツを報告できるようになりました。
報告されたコンテンツは自動的にレビューされ、不適切と判断された場合は非表示または削除されます。
パートナーのコネクタが新しく追加されました
次のパートナー コネクタがLooker Studio コネクタ ギャラリーに追加されました。
- Google広告(提供元:Detrics)
- Facebookインサイト(提供元:Master Metrics)
- Instagramインサイト(提供元:Master Metrics)
- YouTube(提供元:Master Metrics)
- Google広告(提供元:Master Metrics)
- GA4(提供元:Master Metrics)
- Dashbo(提供元:Dashbo)
- Odoo Sign AppiWorks(提供元:Jivrus Technologies)
- 快客-GSC 串接(提供元:黑客數位)
- IntelliKid Systems(提供元:IntelliKid Systems LLC)
- Odoo POS AppiWorks(提供元:Jivrus Technologies)
- Google PageSpeed Insights(提供元:Supermetrics)
本章の執筆者:若松拓夢(Data Analyst)
Looker Studio Proのニュースまとめ
会話分析コード インタープリタがプレビューで利用可能になりました
会話分析コードインタープリタがLooker Studio Proサブスクリプションでプレビュー版をご利用いただけます。
会話分析コードインタープリタは、自然言語の質問をPythonコードに変換し、そのコードを実行することで、高度な分析と可視化を実現します。コードインタープリターはデフォルトでは無効になっています。
本章の執筆者: 若松拓夢(Data Analyst)
dbtのニュースまとめ
Semantic LayerとTableau Cloudの統合が一般提供開始されました
Semantic LayerとTableau Cloudの統合が一般提供開始されました。dbt Semantic Layerで定義されたメトリクスをTableauで直接活用でき、一貫性のあるメトリクス管理を実現します。
Semantic Layer Power BIの統合がプレビュー版で利用可能になりました
Semantic Layer Power BI統合がプレビュー版で利用可能になりました。
Saved queriesで新しいパラメータが利用可能になりました
Saved queriesを作成する際に、以下のパラメータが利用できるようになりました。
- limitパラメータ
- order_byパラメータ
ITライセンスユーザーによるグローバル接続設定の管理が可能になりました
ITライセンスが割り当てられたユーザーがグローバル接続設定の編集と管理を行えるようになりました。これにより、従来のプロジェクトごとの分散管理からアカウントレベルでの一元管理が可能になり、セキュリティとコンプライアンスの強化につながります。
Semantic Layerのメタデータクエリ用GraphQLエンドポイントにページネーション機能が追加されました
Semantic Layerのメタデータクエリでページ化されたGraphQLエンドポイントが利用可能になりました。これにより、大きなマニフェストの統合時の読み込み時間が改善されます。
各リリースの詳細は公式ドキュメントを参照ください。
本章の執筆者:鈴木大介(Product Marketing Manager)
Databricksのニュースまとめ
Agent Bricks: Multi-Agent Supervisorがベータ版として提供開始されました
Agent Bricksは、一般的なAIユースケース向けのドメイン固有の高品質AIエージェントシステムを構築するためのシンプルでノーコードのアプローチを提供します。
ベータ版では、Agent Bricks: Multi-Agent Supervisorは、異なる専門スキルを必要とする複雑なタスクで協力して動作するGenie spacesとKnowledge Assistantエージェントエンドポイントを組み合わせたマルチエージェントAIシステムの設計をサポートします。
Agent Bricks: Multi-Agent Supervisorは、Review Appと統合されており、専門家からの自然言語フィードバックを使用してスーパーバイザーエージェントの品質を向上させることができます。
LLMを使用したテーブルデータの探索がベータ版として提供開始されました
Catalog Explorerを使用して、サンプルデータについて自然言語で質問できるようになりました。アシスタントは、メタデータコンテキストとテーブルの使用パターンに基づいてSQLを生成します。クエリが生成された後、クエリを検証してから基礎となるテーブルに対して実行できます。
サーバーレスノートブック:アイドル終了後のPython変数の復元が可能になりました
Databricksは、アイドル状態のサーバーレスコンピュートを終了する前に、ノートブックのPython変数のスナップショットを作成するようになりました。再接続すると、ノートブックはスナップショットから自動的に復元され、作業をシームレスに続行できます。
アラートのGitサポートが追加されました
Databricks Git foldersを使用して、アラートへの変更を追跡および管理できるようになりました。Gitでアラートを追跡するには、Databricks Git folderに配置します。新しくクローンされたアラートは、ユーザーが操作するまでアラートリストページやAPIに表示されません。これらはスケジュールが一時停止された状態で追加され、ユーザーが明示的に再開する必要があります。
ストリーミングテーブルとマテリアライズドビューの共有が一般提供開始されました
Delta Sharingを使用したストリーミングテーブルとマテリアライズドビューの共有が一般提供開始されました。ストリーミングテーブルとマテリアライズドビューを共有する際の、共有受信者とプロバイダーの制限が少なくなりました。
Structured Streamingのリアルタイムモードがパブリックプレビューとして提供開始されました
サブ秒レイテンシのデータ処理を可能にするStructured Streamingのトリガータイプであるリアルタイムモードを使用できるようになりました。このモードは、ストリーミングデータに対する即座の応答を必要とする運用ワークロード向けに設計されています。
Databricks AppsがLakebaseリソースをサポートするようになりました
Databricks Appsは、Lakebaseデータベースインスタンスをアプリリソースとして追加することをサポートするようになりました。これらのリソースを環境変数として含め、アプリコードからアクセスできます。
Power BI向けDatabricksコネクタがADBCドライバーをサポートするようになりました(パブリックプレビュー)
Power BI向けDatabricksコネクタを、ODBCドライバーの代わりにArrow Database Connectivity(ADBC)ドライバーを使用するように設定できるようになりました。
Enhanced Security and Compliance add-onが従量課金制の全顧客に提供開始されました
コンプライアンスセキュリティプロファイル、自動クラスタアップデート、強化されたセキュリティモニタリングを含むEnhanced Security and Compliance add-onが、契約変更なしですべての顧客に利用可能になりました。ワークスペースでこれらの機能のいずれかを有効にして、強化されたセキュリティ機能の恩恵を受けることができます。現在、有効な機能を持つワークスペースのみが課金され、セキュリティ支出に対する柔軟性と制御が提供されます。Enhanced Security and Compliance add-onを含む既存の契約を持つ顧客は、この変更の影響を受けません。
SQLウェアハウスのCAN VIEW権限が一般提供開始されました
CAN VIEW権限により、ユーザーはクエリ履歴やクエリプロファイルを含むSQLウェアハウスを表示できます。これらのユーザーはウェアハウスでクエリを実行することはできません。
Databricksドキュメントリリースノートフィードが提供開始されました
Databricksドキュメントサイトで、製品およびその他の機能リリースノートの更新を含むRSSフィードが提供されるようになりました。このフィードは、RSSを使用できる任意のフィードリーダーまたはクライアントで使用でき、Databricks製品リリースのメール通知などのフィードリーダー機能を活用できます。
本章の執筆者:西山徹(Senior Product Manager)
TROCCOのニュースまとめ
Connector Builderが正式提供開始されました
β版として提供されていたConnector Builderが正式に提供開始されました。
これに合わせて、以下のような機能が追加されています。
- 対象サービスのAPIドキュメントのURLを指定することで、カスタムコネクタの認証種別や認証種別・スキームなどの情報を、AIで自動補完できるようになりました。
- カスタムコネクタ作成時に対象サービスとの接続テストができるようになり、設定の確認が容易になりました。
コネクタ新規リリース: 転送元コネクタが追加されました
以下の転送元コネクタが追加されました。
- Help Scout
- Typeform
- JUST.DB
- LOGILESS
- ジョーシス
- Zoom
- Zoho Sheet
コネクタ新規リリース: 転送先LINE広告 カスタムオーディエンスが提供開始されました
LINE広告での配信ターゲティングに利用する顧客データを連携できるようになりました。
これにより、より精度の高いターゲティング広告の配信が可能になります。
コネクタ改善: 転送先SFTPがPrivateLinkに対応しました
転送先SFTPがPrivateLinkによる通信に対応し、よりセキュアなデータ転送が可能になりました。
コネクタ改善: 転送元コネクタで取得可能な項目が追加されました
以下の転送元コネクタで取得可能な項目が追加されました。
- 転送元Facebook Adsクリエイティブ:CTAリンク情報を取得できるように
- CTAに設定したリンク情報(call_to_action_value.link)を取得できるようになりました。
- 転送元Shopify:顧客のメールアドレスを取得できるように
- ターゲットに「customers」を指定した場合、defaultEmailAddressを取得できるようになりました。
コネクタ改善: 転送元コネクタでデータの取得対象に指定可能な項目が拡充されました
以下の転送元コネクタでデータの取得対象に指定可能な項目が拡充されました。
- 転送元Backlog:課題一覧の取得対象とするプロジェクトIDを指定できるように
- 取得対象に「課題一覧」を選択した場合、取得対象のプロジェクトIDを指定できるようになりました。
- 転送元Backlog:登録日や更新日で課題一覧の取得範囲を指定できるように
- 取得対象に「課題一覧」を選択した際に、課題の登録日や更新日を指定して取得範囲を絞り込めるようになりました。
- 転送元Stripe:取得対象のデータを作成日時で指定できるように
- 作成日時を基準として取得データの範囲を指定できるようになりました。一部の取得対象データでは作成日時は指定できません。
- 転送元MailChimp:取得対象のデータを送信日時で指定できるように
- 「Campaigns」または「Reports」の場合、送信日時を基準として取得データの範囲を指定できるようになりました。
コネクタ改善: 転送元SAP S/4HANA ODataでOData v4を指定できるようになりました
これまではv2のみサポートしていましたが、v4も選択できるようになりました。
Self-Hosted Runner改善: 転送元Oracle DatabaseとSAP S/4HANA ODataをサポート
Self-Hosted Runnerで転送元Oracle DatabaseとSAP S/4HANA ODataがサポートされました。
オンプレミス環境のデータベースからのデータ転送がより柔軟になりました。
UI/UX改善: データマート定義とワークフローを正規表現で検索できるようになりました
データマート定義とワークフローの一覧画面での検索に正規表現が利用できるようになりました。
UI/UX改善: チーム一覧の並び替えが可能になりました
チーム一覧画面の並び順を、表のヘッダーをクリックすることで各項目基準で変更できるようになりました。
UI/UX改善: 転送設定一覧などで名称順の並び替えが可能になりました
以下の画面にて、名称順による並び替えができるようになりました。
- 転送設定一覧
- マネージド転送設定一覧
- データマート定義一覧
- ワークフロー定義一覧
TROCCO API: 転送設定APIの対応コネクタが拡充されました
転送設定APIの操作対象コネクタとして、以下のコネクタが追加されました。
- 転送先 – Yahoo!広告 ディスプレイ広告 オーディエンスリスト
Terraform Provider for TROCCO: バリデーションの強化など開発者体験を向上するための改善を実施しました
Terraform provider v0.19がリリースされました。Terraform plan時のバリデーションを強化するなど、開発者体験の向上に資する機能改善を複数実施しています
本章の執筆者:大内圭(Head of Data Product)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。