本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
今月のData Engineering Newsの共同著者は以下のメンバーです。 今川航、 庵原崚生、鈴木大介、河野浩明、西山徹、廣瀬智史 |
Google BigQueryのニュースまとめ
gemini-1.5-flashおよびgemini-1.5-proに基づいたリモートモデルの作成およびそれらのモデルを使用したML.GENERATE_TEXT関数がGAになりました
ML.GENERATE_TEXT関数では下記のようなタスクが実行可能です。
- BigQueryに格納されたテキストデータに対する生成的自然言語タスク
- 画像、動画、音声、PDF、テキストが格納されたオブジェクトテーブルに対するオーディオの文字起こしやドキュメント分類などのタスク
INT64またはTIMESTAMP型のデータを含むカラムの検索インデックス作成がGAになりました
データに対して検索インデックスを登録すると、SEARCH関数や=、IN、LIKEなどの演算子を使ってデータの絞り込みを行った場合のパフォーマンスが向上します。
本章の執筆者:今川航(Data Analyst / Analytics Engineer)
Snowflakeのニュースまとめ
機密データの自動データ分類機能が利用可能になりました
機密データを自動的に検出できるサーバーレス機能である機密データの自動データ分類機能が利用可能になりました。
機密データが検出されると、ユーザー定義のタグやマスキング ポリシーを用いて列に自動的に適用することもできます。
グローバルで利用できる個人情報は、データ内に含まれた名前、緯度、経度、クレジットカード番号が利用可能で、日本の固有の個人情報については、データ内に含まれた電話番号と郵便番号が自動判定できるものとして用意されています。
詳しい内容についてはリリースノートをご参照ください。
データ リネージが利用可能になりました
テーブルからビューなど、Snowflake オブジェクト間のデータ フローをリアルタイムで自動的に追跡する機能が利用可能になりました。
dbtのようなデータリネージをSnowflake上のみで監視することができるようになります。
リネージの粒度はテーブル・ビューのカラムレベルまで閲覧することが可能です。
利用するにはアカウントレベルの「View Lineage」権限が必要になります。
関係の検知方法は2つあり、1つがCREATE TABLE AS SELECT(CTAS)、INSERT、MERGE操作によるデータの移動によるものと、オブジェクトのViewなどによる直接的なオブジェクトの依存関係によるものがあります。
詳しい内容についてはリリースノートをご参照ください。
Snowflake Microsoft Sharepoint connectorが利用可能になりました
Snowflake Connector for SharePointは、特定のMicrosoft 365 SharePoint サイトと Snowflakeを接続して、ファイルとユーザー権限を取り込むことができます。
またCortex Searchサービスもサポートしており、取り込んだファイルを会話分析用に利用したり、AIアシスタントとして利用することも可能です。
具体的なユースケースとしては、SharePointに格納されたPDFファイルをDocumentAIで読み取った上でRAGエンジンのCortex Searchに連携する、などが考えられます。
詳しい内容についてはリリースノートをご参照ください。
Cortex Analystのマルチターン会話が利用可能になりました
データ関連の質問に対して、マルチターン(多段的)の会話をサポートするようになりました。
この機能により、以前のクエリを基にした補佐的な質問が可能になり、より動的でインタラクティブなデータ探索体験が実現します。
例えば、「アジアにおける2021年の前月比の収益成長率は? 」と質問し回答が返って来た後に「北米については?」のようなメモリ機能を持った会話が可能になります。
詳しい内容についてはリリースノートをご参照ください。
Cortex Analystの結合定義の読み込みが利用可能になりました
SQL結合の定義読み込みをサポートするようになりました。
特にスタースキーマと呼ばれるデータモデリング手法において、複数テーブルにまたがる、より高度なデータ分析が可能になりました。
これを行うには事前にセマンティックコンテキストの定義をYAMLファイルで、どのテーブルがディメンショナルテーブルで、どのテーブルがファクトテーブルで、どのカラムで結合できるのかなどを定義しておく必要があります。
詳しい内容についてはリリースノートをご参照ください。
Apache Icebergテーブルに対するCOPY / Snowpipe / Snowpipe Streamingが利用可能になりました
Snowflakeの通常のテーブルで利用可能であるCOPY / Snowpipe / Snowpipe Streamingのファイルからテーブルに対する一括的・継続的なファイルデータの取り込みがApache Icebergテーブルでも利用可能になりました。
サポートされているCSVやJSONファイルなどを高速にIceberg互換のParquet方式に変換した上で、データをテーブルにロードすることが可能です。
詳しい内容についてはリリースノートをご参照ください。
その他アップデート(一部抜粋)
拡張されたCREATE OR ALTER コマンドが利用可能になりました
このリリースでは、拡張されたCREATE OR ALTER コマンドはCREATE コマンドと ALTER コマンドの機能を組み合わせたものが利用可能になりました。
例えば、CREATE OR ALTER DATABASE my_database DATA_RETENTION_TIME_IN_DAYS = 7; というクエリを実行した場合、my_databaseが存在しなければ新規作成し、存在すれば、DATA_RETENTION_TIME_IN_DAYSを7日に変更する処理を実行できます。
現在はAPPLICATION ROLE / DATABASE / DATABASE ROLE / ROLE / SCHEMA / STAGE / VIEW / WAREHOUSEがCREATE OR ALTER コマンドで利用可能です。
詳しい内容についてはリリースノートをご参照ください。
予算情報のクラウドプロバイダーキューと Webhook 通知が利用可能になりました
アカウント予算とカスタム予算を設定して、クラウドサービスのメッセージキューサービス(Amazon SNS、Azure Event Grid、Google Cloud PubSub)とWebhook(Slack、Microsoft Teams)に対して通知を送信できるようになりました。
通知を行うには通知統合を作成し、その統合に対して予算を関連付けることで設定できます。
設定に利用できるMethodは以下の通りです。
設定に利用できるMethod | 説明 |
<budget_name>!ADD_NOTIFICATION_INTEGRATION | カスタム予算またはアカウント予算にキューまたはWebhook通知統合を追加します。 |
<budget_name>!GET_NOTIFICATION_INTEGRATIONS | カスタム予算またはアカウント予算に関連付けられているキューおよびウェブフック通知統合に関する情報を返します。 |
<budget_name>!REMOVE_NOTIFICATION_INTEGRATION | カスタム予算またはアカウント予算からキューまたはウェブフック通知統合を削除します。 |
詳しい内容についてはリリースノートをご参照ください。
Snowflake Cortex AI TRANSLATE関数が強化されました
Snowflake Cortex TRANSLATE 関数の今回の強化アップデートで、通話記録、製品レビュー、ソーシャル メディアのコメント、その他のテキストに対して、高品質で信頼性の高い翻訳を提供できるようになりました。
具体的には以下の機能が追加・改善されました。
追加・改善されたもの | 内容 |
翻訳品質の向上 | プロンプトを最適化したりモデルをトレーニングしたりする必要はなく、翻訳品質は市場で最も強力なモデルと同等になりました。 |
翻訳の信頼性の向上 | 新しいバージョンの TRANSLATE では、翻訳の完了が拒否されなくなりました。 |
コンテキストの拡張 | 翻訳対象テキストのサポートされる長さが 1,024 トークンから 4,096 トークンに増加しました。(トークンは約 4 文字です。) |
追加の言語 | 翻訳機能は、オランダ語、中国語、ヒンディー語をサポートするようになりました。 |
混合言語への対応 | 2つの言語が混在して書かれたテキストを、1 つの言語に翻訳できるようになりました。たとえば、TRANSLATE 関数では、「Spanglish」(米国の一部で使用されている英語とスペイン語の非公式な混合言語)を英語のみに翻訳できるようになりました。 |
詳しい内容についてはリリースノートをご参照ください。
Parallel Hyperparameter Optimization (HPO) がSnowpark Container Serviceで利用可能になりました
Snowpark Container Service上で実行するSnowpark MLにおいて、ハイパーパラメータ最適化 (HPO) APIが利用可能になりました。具体的に現在この API は、Snowpark Container Services (SPCS) の Container Runtime を使用するように構成された Snowflake Notebook 内で使用できます。
これは一般的なチューニングアルゴリズムをラップして、効率的に並列化されたハイパーパラメーターチューニングを行うことができます。
例えば、LightGBMのような勾配ブースティング木による学習を行う際、num_leavesやmax_depthなどのハイパーパラメータをいくつか検証するために、自前のCross Validationを用いたり、Optunaなどの自動最適化フレームワークを利用することが一般的ですが、
パラメータの組み合わせが爆発的に増えること、適切なハイパーパラメータのパターンを事前に用意することが難しかったり、並列による処理のリソースの活用が難しいことが多いですが、これらの処理を一挙にかつ自動的にチューニングしてくれる機能、という立ち位置になります。
このHPO APIは特定のモデルに依存せず、上記で説明した様々なモデルで利用可能です。
詳しい内容についてはリリースノートをご参照ください。
本章の執筆者: 庵原崚生(Senior Data Engineer)
Looker Studioのニュースまとめ
レポート閲覧者にすべてのフィルターを表示することができるようになりました
レポート編集者は、レポート閲覧者に対して、閲覧者が編集できないフィルターを含むレポートに適用されているすべてのフィルターを表示させることができます。
フィルター値の候補が表示されるようになりました
グラフ、ページ、またはレポートで等しい(=)または含まれる(In)条件を使用するフィルターを定義する場合、レポート編集者は、基になるデータから提供される可能なフィルター値のリストから選択できます。フィルターの候補は、すべてのデータコネクタでサポートされており、フィルターの作成中に無効にすることができます。
Looker コネクタのフィルター機能が強化されました
Lookerコネクタで以下の機能が利用可能になりました。
- フィルターのみのフィールドを、レポートコントロールとクイックフィルターとして設定できるようになりました。
- 等しい(=)または含まれる(In)条件を使用しているときに、データソースのLookMLの
suggest_dimension
とsuggest_explore
の定義に基づいて、フィルター値の候補が表示されます。
本章の執筆者:鈴木大介(Product Marketing Manager)
dbtのニュースまとめ
dbt ExplorerでTrust signal iconsが表示されるようになりました。
Trust signal iconsはHealthy、 Caution、 Degraded、 Unknownの4種類で表示され、各リソースの健全性について一目で確認できるようになります。
Advanced CIのcompare changes機能でカスタムdbt コマンドが利用できるようになりました。
カスタムdbtコマンドを使用すると、特定の大きなモデルや特定のタグを持つグループを対象外とすることで比較を実行する際のパフォーマンスを最適化することができるようになります。
CIジョブでのSQLFluffによるLintがGAになりました
CI ジョブで SQL linting を有効にすると、CI ジョブのビルド前に実行ステップとしてプロジェクト内のすべての SQL ファイルを自動的に lint することができます。
dbt snapshotで作成されるdbt_valid_toカラムにカスタム値が設定できるようになりました。
カスタム値を設定するにはdbt_valid_to_currentに任意の値(例えば9999-12-31など)を設定します。デフォルトの値はNULLです。
この機能はdbt CloudのLatestもしくはdbt core v1.9以降で利用可能です。
本章の執筆者:今川航(Data Analyst / Analytics Engineer)
Tableauのニュースまとめ
Tableau Cloud – Einstein Requestの使用状況が見られるようになりました
Data Cloud上からEinstein Requestの使用状況を可視化します。詳しい内容についてはリリースノートをご参照ください。
Tableau Cloud – 複数の外部認証方法が設定可能に
ユーザーごとにGoogleやSAMLなどから一つの外部認証方法を設定しなければなりませんでしたが、複数設定可能になりました。詳しい内容についてはリリースノートをご参照ください。
Tableau Pulse – フィードバック送信のオンオフ切り替えが可能に
Personalized Insight Ranking機能では、Tableau Pulseが提供したインサイトに対して良し悪しのフィードバックを送り、より提供されるインサイトをパーソナライズするものでした。
今回のアップデートで機能のオンオフを切り替えられるようになり、オフに設定された場合はフィードバックを送れなくなります。
詳しい内容についてはリリースノートをご参照ください。
本章の執筆者:河野浩明(Data Engineer)
Databricksのニュースまとめ
Databricks AssistantがDatabricksホストモデルに対応
Databricks AssistantにてDatabricksホストモデルを利用できるようになる機能をパブリックプレビューとしてリリースしました。これによりパートナーホストモデルではなく、Databricks Model Serving基盤上で管理されたモデルが利用できます。
FedRAMP ModerateとPCI-DSSがus-west-2でサーバレスコンピューティングをサポート
FedRAMP ModerateおよびPCI-DSS準拠の制御が、us-west-2でのサーバーレスSQLウェアハウス、ノートブックやワークフローのサーバレスコンピューティング、Delta Live Tablesパイプラインをサポートするようになりました。
統合ログインを無効化したワークスペースでの緊急アクセスが可能に
統合ログインが無効でシングルサインオンが有効な場合でも、ワークスペース管理者はDatabricksの認証情報とMFAを使用して緊急ログインが可能になりました。
詳細は公式ドキュメントをご覧ください。
Mosaic AI Model Trainingにサーバーレス予測がパブリックプレビューにてリリース
Mosaic AI Model Trainingの予測機能に、サーバーレスコンピューティング、Unity Catalog対応、深層学習アルゴリズムへのアクセスのサポートが追加され、またインターフェースが改善されました。
自動クラスター更新とセキュリティ設定UIがGA
自動クラスター更新機能がGAとなり、ワークスペース内のすべてのクラスターが定期的に最新のホストOSイメージやセキュリティアップデート対応版に更新されます。
また、アカウントコンソールからセキュリティ設定を有効化する機能も利用可能になりました。
notebookでのPythonデバッガのサポート範囲が拡大
Databricksノートブックの組み込みPythonデバッガが、サーバーレスコンピューティングおよび共有アクセスモードで構成されたコンピューティングで使用可能になりました(Databricks Runtime 14.3 LTS以上でサポート)。詳細は公式ドキュメントをご確認ください。
ウェブターミナルの体験を改善
Databricksウェブターミナルに以下の改善が加えられました。
改善項目 | 内容 |
設定ファイルのサポート | .bashrcファイルを使用して永続的な設定を保存可能に。 |
コマンド履歴 | 上下の矢印キーで以前のコマンドを簡単に呼び出しできます。 |
共有クラスターのサポート | Databricks Runtime 15.1以上で共有クラスターでも利用可能。 |
Delta Live Tablesでクエリ履歴とクエリプロファイルをサポート
Delta Live Tablesパイプラインのクエリパフォーマンスをモニタリングするためのツールがアップデートされました。詳細は公式ドキュメントをご覧ください。
Mosaic AI Model Trainingをリブランド
Mosaic AI Model Trainingがリブランドされ、既存機能が以下のように整理されました。
整理された機能 | 内容 |
基盤モデルのファインチューニング | 従来のMosaic AI Model Trainingとして知られていた機能が引き続き利用可能です。詳細は公式ドキュメントをご覧ください。 |
AutoML機能 | 実験セクションからアクセス可能になりました。詳細は公式ドキュメントをご覧ください。 |
SQL出力を後続のSQLセルで再利用可能に
Databricks Runtime 14.3以上で、SQLクエリを実行すると暗黙的なDataFrame(_sqldf)が生成され、後続のSQLセルで再利用可能になります。詳細は公式ドキュメントをご覧ください。
システムテーブル「Warehouses」がパブリックプレビューに
system.compute.warehousesテーブルがシステムテーブルに追加されました。
SQLウェアハウスの設定を記録し、各行は特定時点でのウェアハウスプロパティのスナップショットを表します。
クロスプラットフォームのビュー共有がパブリックプレビューに
Databricksアカウントが異なる場合でも、任意のDatabricksコンピューティングリソースを使用して共有ビューに対してクエリが発行可能になりました。
また、Delta Sharingのオープンシェアリングコネクタを使用してデータを共有する機能も拡張されました。
Clean Roomsのパブリックプレビューが新機能とともに解放
Clean RoomsのパブリックプレビューがAzureおよびAWSのすべての顧客に解放され、新機能として以下が追加されました。
追加された機能 | 内容 |
一時的な読み取り専用テーブル | 一時的な読み取り専用テーブルがノートブックが起動される際に作成され、ノートブックが起動された環境のUnity Catalog メタストアに連携されます。 |
Clean Roomノートブックタスクタイプ | ワークフロー内で、データクリーンルーム上でのDatabricksノートブックの実行をサポート。これによりデータクリーンルーム内での複雑なワークフローが実行できます。 |
Databricks Runtime 16.0がGAに
Databricks Runtime 16.0およびDatabricks Runtime 16.0 MLが一般提供されました。
Hosted RStudioがEOLに
Databricks Runtime 16.0以降、Databricks Hosted RStudio Serverが利用できなくなります。代替案については公式ドキュメントを参照してください。
新規Databricksアカウントに予測最適化がデフォルトで有効に
2024年11月11日以降、Unity Catalog管理テーブルにおけるメンテナンス操作を自動化する「予測最適化」が、新規Databricksアカウントでデフォルトで有効化されるようになりました。
Unity Catalogでの外部クラウドサービスへのアクセス認証の簡略化がパブリックプレビューに
IAMロールとUnity Catalogを使用することで、クラウドサービスとの認証を簡素化し、安全なサービス認証情報がパブリックプレビューとして利用可能になりました。
本章の執筆者:西山徹(Senior Product Manager)
TROCCO®のニュースまとめ
zeroONE 2024にてプロダクトのアップデートを多数発信しました
弊社主催イベントzeroONE 2024を開催し、その場で弊社CEO田邊のキーノートセッションにて発表した内容と同一内容をプレスリリースにて発信いたしました。詳細はプレスリリースをご確認ください。
- primeNumber社、10年目を迎えブランドリニューアルを実施 ~TROCCO・COMETAの機能を大幅拡充。導入・運用支援サポートを開始~
- primeNumber社、「あらゆるデータ」の対応に向けてクラウドETL「TROCCO」の機能を大幅拡充 ~100超のサービスやオンプレミスに対応、連携を大幅に拡張~
転送元freee会計をリリース
freee会計からDWH上などにデータを転送できる、転送元freee会計をリリースしました。詳細はヘルプドキュメントをご覧ください。
転送元SmartHRをリリース
SmartHRからDWH上などにデータを転送できる、転送元SmartHRをリリースしました。詳細はヘルプドキュメントをご覧ください。
Terraform Provider for TROCCOを正式リリース
TROCCOの設定をコードで管理するための、Terraform Provider for TROCCOを2024年8月よりベータリリースしていましたが、2024年12月5日に正式版として公開しました。
なお利用にあたってはTROCCOをAdvanced planまたはProfessional planにてご契約いただく必要があります。
リソースグループごとの処理時間が確認できるように
チーム機能をご利用の場合、リソースグループごとに、各ジョブの処理時間や合計処理時間を確認できるようになりました。
サイドバーの「処理時間」から確認できます。
これらのデータを活用することで、たとえば処理時間が多いリソースグループを特定して調整するなど、TROCCOの運用面における効率化・最適化を図ることができます。
なお、表示できるのは2024年11月初日以降のデータのみです。
転送元・転送先Snowflakeで接続確認できるように
転送元または転送先コネクタにSnowflakeを指定した際、転送設定STEP1でそれぞれ接続を確認できるようになりました。
STEP2に進む前に、入力した内容で問題なくデータを転送できるかを確認できます。
接続情報APIを追加
TROCCO APIで接続情報に関する以下の操作ができるようになりました。
なお、対応サービスはGoogle BigQuery・Snowflakeのみとなります。
APIアップデート:転送元Google Ad Manager
転送時に使用するGoogle Ad Manager APIのバージョンを、 v202311からv202408へアップデートしました。
新バージョンについては、Google Ad Manager APIを参照ください。
本章の執筆者:西山徹(Senior Product Manager)
COMETA®のニュースまとめ
dbtのタグ・説明による検索をサポート
COMETAでは、検索バーに文字列を入力することで、各種アセットや用語を検索できます。
今回の対応で、以下の項目を検索対象の文字列に追加しました。
- dbtメタデータ
- タグ
- 説明
これにより、入力した文字列がCOMETA上のテーブル・カラムに紐づくdbtメタデータのタグ・説明と一致する場合、検索結果に表示されるようになります。
Snowflakeのデータストア連携にてキーペア認証ができるように
Snowflakeアカウントの認証方式に「キーペア認証」を追加しました。
また、従来のユーザ・パスワード認証は非推奨となります。
今後は、キーペア認証またはMicrosoft Entra ID認証をご利用ください。
設定項目や必要な手順について、詳しくはデータストアの連携・認証 – Snowflakeの場合を参照ください。
本章の執筆者:廣瀬智史(Head of of Product Management)
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。