本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。

主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。

Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。

今月のData Engineering Newsの共同著者は以下のメンバーです。

今川航、 庵原崚生、鈴木大介、片貝桃子、西山徹、廣瀬智史

Google BigQueryのニュースまとめ

EXPORT DATAステートメントでBigQueryからSpannerへリバースETLができるようになりました

この機能はプレビュー版です。詳細は公式ドキュメントをご参照ください。

データセット作成時にデフォルトのストレージ課金モデルが設定できるようになりました

データセット作成時に、デフォルトのストレージ課金モデルとして、論理バイト課金か物理バイト課金のいずれかを選択できるようになりました。

それぞれの課金モデルの違いについてはGoogle Cloudの公式ブログをご参照ください。

継続的クエリがプレビュー版として利用できるようになりました

継続的クエリを使用すると、リアルタイムでの分析、Vertex AIを介した機械学習推論の適用、他のプラットフォームへのデータのレプリケーションなど、時間的制約のあるタスクを実行できます。

継続的クエリはEnterpriseエディション、Enterprise Plusエディションで利用可能です。

詳細は公式ドキュメントをご参照ください

CHANGES関数がプレビュー版として利用できるようになりました

この関数で指定期間内(最大1日)のテーブル変更の履歴を取得できます。

関数を利用するにはテーブル作成時にenable_change_historyオプションをTRUEに設定する必要があります。

テーブルエクスプローラーがプレビュー版として利用できるようになりました

テーブル エクスプローラでは、テーブルデータを視覚的に探索し、テーブル フィールドの選択に基づいてクエリを自動的に作成できます。

詳細は公式ドキュメントをご参照ください

本章の執筆者: 今川航(Data Analyst / Analytics Engineer)

Snowflakeのニュースまとめ

Cortex Searchが利用可能になりました

LLMを利用したRAGアプリケーションの構築を簡素化できる機能として、Cortex Searchが利用可能になりました。

RAGアプリケーションの構築の際に気にするべき事項として、データのベクトル化(Embedding)、インフラストラクチャのメンテナンス、検索品質の調整、継続的なインデックスの更新などあらゆる項目を気にすることなく、起動から実行まで行うことができます。

注意事項として、現在はプレビュー段階であるため、以下の制約事項があります。

  • 英語ドキュメントとクエリに対して最適化されています。
  • 最適なパフォーマンスを維持するために、サイズを1,000万行以下のベーステーブルを使用することを推奨しています。
  • AWS us-east1、AWS us-west-2の地域のアカウントのみが利用可能です。

詳しい内容についてはリリースノートをご参照ください。

Iceberg TableのPolaris Catalogが利用可能になりました

SnowflakeでのIceberg Table利用時にCatalogとしてPolaris Catalogの利用が可能になりました。

Iceberg Tableの弱点として、テーブルのメタ情報を管理するCatalog機能がSnowflakeを始めとして、他のサービス・OSS(Apache Flink, Apache Spark, PyIceberg, Trinoなど)との「方言」の違いがあり、Icebergを使っていながら統合しきれない部分がありました。

これをPolaris Catalogを用いることで、この差異を埋め合わせ、複数サービスから同一のテーブルへアクセスすることができるようになります。

詳しい内容についてはリリースノートをご参照ください。

Snowflake CopilotがGAになりました

LLMを利用したアシスタント機能で、堅牢なデータガバナンスを維持しながら、データ分析を簡素化したり、既存のSnowflakeワークフローにシームレスに統合します。

ユースケースとしてはデータ構造に対する自由形式の質問をしたり、独自のSQLを改良・改善することに利用できます。

投稿日現在では、以下の地域のアカウントのみで利用可能です。

  • AWS us-east-1
  • AWS us-west-2
  • AWS eu-central-1

詳しい内容についてはリリースノートをご参照ください。

RDBMS向けSnowflakeコネクタが利用可能になりました

このリリースではPostgreSQLとMySQLのCDC (Change Data Capture)コネクターとして動作するSnowflake Connectorが利用可能になりました。

PostgreSQL、MySQLデータベースそれぞれからSnowflakeにデータをロードし、転送元のデータベースからの変更がSnowflakeに複製されるようにレプリケーションを構成できるようになります。

現在はプレビュー段階ではあるため、一部制限や不安定さがあるとのことですが、RDBMSからSnowflakeへのニアリアルタイムのログベース連携が行えることは、分析基盤構築の上で柔軟性を持たせてくれる選択肢が増えることになります。

詳しい内容についてはリリースノートをご参照ください。

Snowflake Cortex AIで新しいMeta AIモデルが利用可能になりました

LLMモデルのLlama3.1コレクションがSnowflake Cortex AIで利用可能になりました。

このリリースで追加されたモデルは以下のとおりです。

  • llama3.1-405b
  • llama3.1-70b
  • llama3.1-8b

llama3.1系はllama3系と比べて、さまざまなベンチマークタスクにおいて、同サイズのLLMモデルより優れていると報告されているモデルであり、特にコーディング能力が優れているとされています。

注意点としては、デフォルトのllama3.1系は日本語を除く8言語に対応しているため、今後の拡張が期待されます。

詳しい内容についてはリリースノートをご参照ください。

Snowflake Cortex AIで新しいAI21モデルが利用可能になりました

イスラエルに本拠を置くAI21 Labsが開発した基礎モデル、jamba-instructモデルが利用可能になりました。

このモデルは低コストで低遅延の256kトークンテキストウィンドウを提供できるように最適化されたモデルで、長いドキュメントや広範なナレッジベースの要約、Q&A、エンティティ抽出などのタスクに最適です。

詳しい内容についてはリリースノートをご参照ください。

Snowflake Cortex AI向けCortex GuardがGAになりました

潜在的に不適切または安全でない大規模言語モデル (LLM) 応答を除外するセーフガードを企業が簡単に実装できるようにする機能がGAになりました。

COMPLETE関数の呼び出しで指定できる新しいセーフティ フィルターが導入され、暴力犯罪、憎悪、性的なコンテンツ、自傷行為など、有害なコンテンツに関連付けられた言語モデル応答が自動的に除外されます。

具体的にはCOMPLETE関数の引数として、’guardrails’: true を指定するだけで利用が可能です。

詳しい内容についてはリリースノートをご参照ください。

その他アップデート(一部抜粋)

Hybrid Tableに使用割り当て制限が付与されました

RDBMSのように読み込みと書き込みの低レイテンシと高スループットを必要とする、トランザクション用に最適化されたHybrid Tableに対して、ストレージとリクエストに対するデフォルトの容量が強制されるようになりました。

具体的な数値については以下のとおりです。

制限事項デフォルト値備考
ストレージ1データベースあたり500GBHybrid Tableに対して保存できるデータ容量を指します。制限を超えると、テーブルに対する書き込み操作が一時的にブロックされます。
リクエスト1データベースあたり毎秒約1000回テーブルに対する読み込みと書き込みの速度を制御します。
データベース数1アカウントごとに合計100個、1時間以内の追加は10個Snowflakeアカウント内のデータベースにHybrid Tableを含めることができる数を指します。制限を超えると、制限の上限値を増やすか削除しない限り、新規作成ができなくなります。

詳しい内容についてはリリースノートをご参照ください。

Snowflake Notebooksの外部アクセスが利用可能になりました

デフォルトでは、Snowflakeは外部エンドポイントからのネットワークアクセスを制限していますが、外部ネットワークアクセス(External Network Access)を用いることでアクセスが可能になりました。

例として、KaggleやHuggingFaceなどの一般的なデータサイエンスおよび機械学習に関するサイトへのアクセスを設定することなどのユースケースが考えられます。

詳しい内容についてはリリースノートをご参照ください。

Streamlit in Snowflakeの外部アクセスが利用可能になりました

こちらもSnowflake Notebooksと同様、デフォルトでは、Snowflakeは外部エンドポイントからのネットワークアクセスを制限していますが、外部ネットワークアクセス(External Network Access)を用いることでアクセスが可能になりました。

例として、OpenAI APIにアクセスして、LLMアプリケーションの高度化を行うことなどのユースケースが考えられます。

詳しい内容についてはリリースノートをご参照ください。

Dynamic TableとIceberg Tableの利便性が向上しました

Snowflakeが管理するIceberg Tableを利用したDynamic Table向けの2つの新機能が利用可能になりました。

  • Snowflakeが管理するIceberg Tableをソースとして読み取る動的テーブルの作成
  • クエリ結果をSnowflake管理のIceberg Tableとして保存するDynamic Iceberg Tableの作成

また、このリリース内容では、Snowflake管理以外のIcebergテーブルのStreamの使用もサポートされています。

詳しい内容についてはリリースノートをご参照ください。

USERの新しいTYPEプロパティがGAになりました

TYPEプロパティを使用することでサービスユーザーと人間ユーザーの区別を行うことができます。

例えば、実際にSnowflakeにアクセスする人間としてユーザーと、TROCCOやdbtなどのサービスで利用する人間ではないサービスアカウントのようなユーザーを明確に区別することができます。

詳しい内容についてはリリースノートをご参照ください。

本章の執筆者: 庵原崚生(Senior Data Engineer)

Looker Studioのニュースまとめ

Google Adsと新しいSearch Ads 360コネクタでアセットロケーションフィールドが追加されました

下記のアセットロケーションフィールドが追加されました。

  • address line 1
  • address line 2
  • business name
  • city
  • country code
  • phone number
  • postal code
  • province

新たなパートナーコネクタが追加されました

下記のパートナーコネクタがLooker Studioレポートギャラリーに追加されました。

  • Facebook Ads By “DAXRM”
  • Pitchbox Daily Outreach Activity By Pitchbox
  • Wrike By Windsor.ai
  • Cart.com By Windsor.ai
  • Metabase By Windsor.ai
  • SurveyMonkey By Windsor.ai
  • Okta By Windsor.ai
  • Chargebee By Windsor.ai
  • Mailerlite By Windsor.ai
  • Clickup By Windsor.ai
  • Courier By Windsor.ai
  • Play console connector By Multivariate Tech
  • Dynamics 365 By Windsor.ai
  • AdRoll By Catchr
  • Typeform By Windsor.ai
  • Google Search Console By Catchr
  • Clockify By Windsor.ai
  • GitLab By Windsor.ai
  • AppFollow By Windsor.ai
  • Monday By Windsor.ai
  • Agorapulse Social Analytics By Agorapulse
  • Oktopost By Oktopost
  • LinkedIn Business Manager By Power My Analytics
  • Facebook Insights By Doodlytics
  • Instagram Insights By Doodlytics
  • Facebook Ads Insights By Doodlytics
  • Pardot By Catchr
  • ConvertKit By Windsor.ai
  • Delighted By Windsor.ai
  • Everhour By Windsor.ai
  • Linnworks By Windsor.ai
  • s.i.m.b.a Google Ads By s.i.m.b.a
  • s.i.m.b.a Google Analytics By s.i.m.b.a
  • s.i.m.b.a LinkedIn Page By Simba
  • s.i.m.b.a LinkedIn Ads By s.i.m.b.a
  • MINT ARM By MINT
  • WooCommerce By Windsor.ai
  • Bing Webmaster Tool By Catchr

本章の執筆者:鈴木大介(Project Manager)

Looker Studio Proのニュースまとめ

Gemini in Lookerがパブリックプレビューになりました

以下のGemini in Lookerの機能がパブリックプレビューになりました。

  • 計算フィールドの作成:Looker Studioの計算式言語に関する前提知識や経験がなくても、Looker Studioの計算フィールドを作成できます。
  •  Looker StudioのコンテンツをGoogleスライドに追加:Looker StudioレポートのコンポーネントをGoogleスライドのプレゼンテーションにインポートできます。

Gemini in Lookerの詳細Looker Studioでの有効化の方法については、それぞれのリンクをご確認ください。

本章の執筆者:鈴木大介(Project Manager)

dbtのニュースまとめ

dbt Cloud – アカウント設定でConnectionsが利用可能になりました

アカウント設定でConnectionsが利用可能になりました。これまではプロジェクトごとにありましたが、アカウントレベルの設定を複数のプロジェクトで利用可能になります。変更点の詳細については、公式ドキュメントをご確認ください。

dbt Cloud – CDを実行するためのマージジョブが一般公開になりました

CD(継続的デプロイメント)を実行するためのマージジョブが一般公開になりました。これまではプルリクエストがマージされるたびにカスタムのGitHub Actionsを設定するか、手動で変更をビルドする必要があったのが、自動で処理できるようになります。設定方法は公式ドキュメントをご確認ください。

dbt Cloud – dbt Cloud CLIからSQLファイルのLintが可能になりました

dbt Cloud CLIからSQLファイルのLintが可能になりました。詳細は公式ドキュメントをご確認ください。

dbt Cloud – Generic Data Testsでカスタムの設定が利用できるようになりました

Generic Data Testsでカスタムの設定が利用できるようになりました。これによって、テスト実行時に通常とは異なるSnowflakeのウェアハウスを設定することなどができるようになります。設定方法は公式ドキュメントをご確認ください。

なおこの機能拡張については、dbt Coreでも後日利用可能になる予定です。

dbt Cloud – dbt Semantic Layer: Pythonライブラリであるdbt-sl-sdkのSDKが導入されました

dbt Semantic Layerに対して、Pythonライブラリであるdbt-sl-sdkのSDKが導入されました。これにより、Pythonでdbt Semantic Layerに簡単にアクセスできるようになります。開発者はdbt Semantic Layer APIを利用し、他のツールでメトリックとディメンションをクエリできます。詳細については、公式ドキュメントを参照してください。

dbt Cloud – dbt Semantic Layer: CIパイプラインにセマンティック検証が導入されました。

CIパイプラインにセマンティック検証が導入されました。dbt sl validateコマンドを使用してCIジョブにウェアハウス検証チェックを追加することで、コードレビュー中にセマンティックノード(メトリック、セマンティックモデル、保存済みクエリ)を自動的にテストできます。

変更されたセマンティックノードを検証して、dbtモデルに加えられたコード変更によってこれらのメトリックが壊れないようにすることもできます。追加のコマンドとユースケースについては、公式ドキュメントを参照してください。

その他のアップデートについては、リリースノートをご確認ください。

本章の執筆者:鈴木大介(Project Manager)

Tableauのニュースまとめ

Tableau Pulseのアップデート

インサイトタイプにOutlier insight Settingが追加

Tableau Pulseでは、作成したメトリクスに対して、自動で示唆を表示してくれるインサイトという機能があります。インサイトにはいくつか種類があり(Current Trend, Top Driverなど)、ON/OFF形式で選択・設定することができます。

こちらのインサイトタイプに一定期間での外れ値を表示するRecord-level Outliersが追加されたようです。

公式ドキュメントはこちらからご確認ください。

編集の制限機能の追加

デフォルトでは誰でもメトリクスの編集や削除が可能ですが、メトリクス作成画面にて、編集可能なユーザーを指定し制限することが可能になりました。(CreaterもしくはExplorerユーザーが対象)

その他は、公式のリリースダッシュボードをご参照ください。

本章の執筆者:片貝桃子(Data Analyst)

Databricksのニュースまとめ

Lakeflow ConnectがGated Public Preview

LakeFlow Connectは、データベースやエンタープライズアプリケーションからデータを取り込み、Databricksにロードできるネイティブコネクタを提供します。
LakeFlow Connectは、効率的なインクリメンタルリードとライトを活用することで、データの取り込みをより高速に、スケーラブルに、コスト効率よく行うことができます。

現在サポートされているデータソースは以下の通りです。

  • Salesforce Sales Cloud
  • Microsoft Azure SQL Database
  • Amazon RDS for SQL Server
  • Workday

詳細は「LakeFlowコネクト」についてのドキュメントをご覧ください。

Delta Sharingによるモデル共有がGA

Delta sharingがAIモデルの共有をサポートするようになりました。

詳細は公式ドキュメントをご確認ください。

Meta Llama 3.1 がModel Servingにてサポート

Mosaic AI Model ServingはMetaと提携し、Metaによって構築・訓練されたモデルアーキテクチャであるMeta Llama 3.1をサポートするようになりました。
Llama 3.1はFoundation Model APIsの一部としてサポートされています。

Foundation Model APIの詳細は公式ドキュメントをご確認ください。

Serverless computeがworkflow, notebookにも対応

Serverless computeにより、Databricks jobを自らインフラリソースを用意することなく実行することができていましたが、この対象にworkflowとnotebookが加わりました。これにより、workflowによるジョブの実行や、notebookによるアドホックな分析の際にもserverless computeの恩恵を受けられるようになりました。詳細は以下も参照ください。

Lakehouse Federation がSalesforce Data Cloudをサポート(Public Preview)

federated queryをSalesforce Data Cloudに対して実行できるようになりました。

詳細は公式ドキュメントをご覧ください。

Databricks-managed passwordsのサポート終了

2024年7月10日より、DatabricksのUIやAPIの認証にDatabricksが管理するパスワードを使用することができなくなりました。シングルサインオンが設定されていない場合、ユーザはログインするための固有のコードをメールで受け取るようになります。DatabricksはOAuth認証の使用を推奨しており、そちらについての切り替え対応を検討すると良いでしょう。

詳細は公式ドキュメントをご覧ください。

Databricks Assistantがエラーの自動修正提案をPublic Previewにてサポート

Databricks Assistantは、エラーメッセージを検出すると、ノートブックで自動的に/fixを実行するようになりました。アシスタントは生成AIを使用してコードとエラーメッセージを分析し、ノートブックで直接修正を提案します。

詳細は公式ドキュメントをご覧ください。

本章の執筆者:西山徹(Senior Product Manager)

TROCCO®のニュースまとめ

転送ジョブのメモリサイズを増加しました

2024年07月16日週内のリリースにより、データ転送に用いられるメモリサイズが増加されました。

  • 変更前のメモリサイズ:2 GiB
  • 変更後のメモリサイズ:6 GiB

本変更は、上記リリース後に作成された転送設定に対して適用されます。
転送ジョブのスペックアップになるため、変更前のジョブと比べてパフォーマンスが向上する可能性があります。

ただし、以下のコネクタは、例外的に現時点でのメモリサイズが15 GiBであり、今回の変更の後も引き続き15 GiBが適用されます。

例外的にメモリサイズが15 GiBとなるコネクタ一覧

  • 転送元 – Amazon S3
  • 転送元 – Box
  • 転送元 – Google Cloud Storage
  • 転送元 – Google Play
  • 転送元 – KARTE Datahub
  • 転送元 – Repro
  • 転送元 – ローカルファイル

転送元Databricksを追加しました

転送元Databricksを新たに追加しました。
詳しくは、転送元 – Databricksを参照ください。

release-note-2024-07_001.png

マネージドデータ転送の転送先にDatabricksを追加しました

マネージドデータ転送の転送先として、Databricksを選択できるようになりました。
転送元のデータソースを一括で取得してDatabricksへ転送する転送設定を、一元作成・管理できます。

転送設定一覧で接続情報の種類による絞り込みができるように

前回のアップデートで、コネクタ単位での絞り込みに対応しました。
上記に対し、今回のアップデートでは、個々の接続情報単位での絞り込みに対応しました。
これにより、任意の接続情報がどの転送設定に用いられているかを、かんたんに確認できるようになりました。

release-notes_240729-001.png

ユーザー管理画面をリニューアルしました

ユーザー管理画面のデザインを変更しました。
これにより、各ユーザーの権限(TROCCO®上で許可されている操作)を一目で確認できるようになりました。
また、COMETA®と合わせてご利用の場合、ユーザーを絞り込むこともできます。

release-notes_240722-001.png

おまけ: TROCCO® の Terraform Provider(β版) がリリースされました

TROCCO®のTerraform Provider(β版)がリリースされました。

  • BigQueryデータマート定義をTerraformで管理可能(作成、変更、削除)
  • 転送設定、ワークフロー、などもサポート検討中

※1: Advancedプランから利用できる、APIオプションの契約が必要です。

※2: β版のため、今後仕様が変更になる可能性があります

これにより、以前から要望をいただくことの多かった「TROCCO®の設定をコードベースで管理したい」という要望を一部ですが叶えられる形です。今後の機能拡充の検討のためにもフィードバックお待ちしております。

詳細はこちらのドキュメントをご確認ください。

また、弊社メンバーによる紹介・チュートリアル記事も併せてご覧ください。

本章の執筆者:西山徹(Senior Product Manager)

COMETA®のニュースまとめ

用語集機能をリリース

用語集機能では、データと紐づいたビジネス用語や組織内の概念を用語として統一的に定義することで、チームメンバー内の認識の共通化を促進できます。

また、用語をアセットと関連付けることで、アセットの性質を用語によって分類することもできます。これにより、アセットの検索性が高まり、利用したいデータによりアクセスしやすい環境を整えることができます。

用語集機能では、用語集を作成し、用語集の中に用語を作成できます。

作成した用語は、アセットに関連付けることができます。用語の詳細画面からも、どのアセットに関連付けられているかを確認できます。

また、用語の検索にも対応しています。

BigQueryの日付別テーブルを取り込む際のロジックの変更

BigQueryの日付別テーブル(シャーディングテーブル)を取得する際の仕様が一部変更となりました。詳しくは、日付別テーブルの取り込みについてを参照ください。

メタデータをエクスポートできるように

COMETA®に入力したメタデータをCSVファイル形式でエクスポートできるようになりました。
必要な権限や利用上の制約など、詳しくはメタデータエクスポートを参照ください。

COMETA®の画面操作がよりスムーズに

各種内部実装を改善することで、COMETA®の画面操作における応答速度が向上しました。

連携するアセット数が200,000程度であっても、COMETA®画面上でラグを感じることなく操作できるようになりました。

ユーザー管理画面の変更

ユーザー管理画面のデザインを変更しました。
これにより、各ユーザーのロールや許可されている操作を一目で確認できるようになりました。

また、ユーザーの属性によって表示するユーザーを絞り込むこともできます。

アセット一覧にて「任意のアセット配下にあるアセット」の形で絞り込めるように

これまでのアセット一覧のフィルタ機能は、入力した文字列に部分一致したアセットがすべて表示される仕様でした。

今回の改修により、特定の入力規則を用いることで、たとえば任意のプロジェクト配下のアセットのみを表示できるようになりました。

以下は、hogeプロジェクト配下かつfugaデータセット配下のアセットに絞り込んでいる例です。

入力規則について、詳しくはアセット一覧を参照ください。

Google Analytics (ユニバーサル アナリティクス)の廃止対応

Googleによるユニバーサル アナリティクスの廃止対応に伴い、データソースに関するメタデータの取得対象となるコネクタから転送元Google Analyticsを削除しました。

本章の執筆者:廣瀬智史(Head of of Product Management)


Data Engineering Newsは毎月更新でお届けいたします。

記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。