本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
Google BigQueryのニュースまとめ
JavaScriptのユーザ定義集約関数(UDAF)がプレビューになりました
CREATE AGGREGATE FUNCTION文でJavaScript UDAFを作成できます。
詳細はこちらをご参照ください。
リモートモデル作成でGemini 1.5 Proがプレビューとして利用できるように
ML.GENERATE_TEXT関数でこのモデルを使用することで、BigQueryのテーブルに格納されたテキストの自然言語生成タスクを実行や、BigQueryオブジェクトテーブルに格納された画像、動画、音声、PDF、テキストコンテンツを使用して、音声書き起こしや文書分類などの生成AIタスクを実行できます。
ML.GENERATE_TEXT関数でGeminiモデルを使用する際にグラウンディングと安全性属性が指定できるように
グラウンディングを行うには、ground_with_google_search引数を使用します。グラウンディングによりGeminiモデルが応答を生成する際にインターネットからの追加情報を使用することを可能にします。
安全性属性を設定するには、safety_settings引数を使用します。Geminiモデルは指定した属性に基づいて、安全でないコンテンツをブロックします。
詳細は以下のページをご参照ください
- https://cloud.google.com/vertex-ai/generative-ai/docs/grounding/overview?hl=ja
- https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-attributes?hl=ja
テーブルあたりの最大パーティション数が4000から10000に変更
日次で分割する場合、これまで11年でパーティション数の上限に達していましたが、これからはおよそ27年分のパーティションを切ることが可能になります。
Snowflakeのニュースまとめ
Snowpark MLでSnowflake Model RegistryがGAになりました
Snowflake Model Registryは自作した機械学習モデルをSnowflake上で保存、管理、使用することができる機能です。さまざまなタイプの機械学習モデルをサポートしており、Python、SQLの両方から使用できます。
登録されたモデルは以下のように数行で実行することが可能です。
m = reg.get_model("MYMODEL")
mv = m.default
mv.run(test_df, function_name="predict").show()
また、タスクを駆使することでSnowflake上でMLOpsを行うことも可能です。
詳しい内容は以下を参照ください。
Vector型とVector関連の関数がGAになりました
データ型
まずデータ型としてVector型が利用可能になりました。今までもARRAYを用いて同様の操作が行えていましたが、より大規模言語モデル向けに効率よくベクトル操作を行えるデータ型として利用できます。
関数
次に、Vector型を効率よくかつ汎用的に利用できるような関数が利用可能になりました。
関数は以下の通りです。
関数名 | 可能な計算 | 用途 |
VECTOR_INNER_PRODUCT | ベクトル同士の内積計算 | 機械学習向け、経済金融系向け、科学系向けなどの高度な計算 |
VECTOR_L2_DISTANCE | ベクトル同士のユークリッド距離計算 | ChatBot、RAGアプリケーション、検索アプリケーションなど |
VECTOR_COSINE_SIMILARITY | ベクトル同士のコサイン類似度計算 | ChatBot、RAGアプリケーション、検索アプリケーションなど |
EMBED_TEXT_768 | Snowflake Cortexで利用できるLLMモデルを用いたベクトルEmbedding(文字列→ベクトル)処理 | ベクトルデータベースの構築やRAGアプリケーションの検索クエリ作成など |
これらの関数とSnowflake Cortexを組み合わせることで強力なLLMアプリケーションの構築をSnowflakeのみで行うことが可能となります。
詳しい内容はリリースノートをご参照ください。
Snowflake Cortex関数がGAになりました
LLM関数を利用することでSnowflake Arcticをはじめとする大規模言語モデルをSQL経由で利用可能となります。
GAになった関数は以下の通りです。
関数名 | 説明 |
COMPLETE | プロンプトを入力することで、それに対する応答が返ってきます。 |
EXTRACT_ANSWER | 質問と非構造データを指定することで、データ内に質問に対する回答が見つかった場合に回答を返します。 |
SEMTIMENT | 指定されたテキストが肯定的か否定的かの感情を表す-1 ~ 1までのスコアを返します。 |
SUMMARIZE | 指定された文字列の要約を返します。 |
TRANSLATE | 指定された文字列をサポートされている任意の言語から他の言語に翻訳します。 |
詳しい内容はリリースノートを参照ください。
通知送信を行うための新しいストアドプロシージャが利用可能に
SYSTEM$SEND_SNOWFLAKE_NOTIFICATION ストアド プロシージャを使用することで、電子メール・Amazon SNSトピック・ Microsoft Azure Event Gridトピック・Google Cloud Pub/Subトピックに通知を送ることが可能になります。
詳しい内容はリリースノートを参照ください。
Document AIが利用可能に
請求書や契約書などのドキュメントから情報をSQL経由で抽出できます。
Document AIはSnowflake独自の大規模言語モデルであるSnowflake Arctic-TILT(Text Image Layout Transformer)というSnowflake Arcticの専用モデルが搭載されています。
現在はAWSおよびMicrosoft Azureの商用リージョンアカウントで利用できます。
詳しい内容はリリースノートを参照ください。
Trust Centerが利用可能に
アカウントのセキュリティリスクを評価および監視ができる機能が利用可能になりました。
Snowsightから利用できます。
このTrust Centerを用いることで、事前に用意されたアセスメントを通じて、問題点の列挙や改善のための推奨事項などが提供され、アカウントのセキュリティ維持の活動に役立てられます。
現状のアセスメントは、CIS Benchmarksのスキャナーパッケージが利用でき、権限管理やユーザーの状態など、39項目を評価できるようになっています。
詳しい内容は以下を参照ください。
その他アップデート(一部抜粋)
集計および射影ポリシーがGAになりました
集計ポリシーは、ポリシーを設定したテーブルに対してSELECTを行う際に集計関数(SUMやAVGなど)を用いないとクエリできないようにするものです。これにより、集計前の値がどのような値かを参照できないようにできます。
射影ポリシーはSELECTを行う際にポリシーで設定されたカラムを参照できないようにするものです。直接的に閲覧することはもちろん、集計をすることも不可能になります。
個人情報の秘匿などを行う際に有効な方法として利用できます。
新しいLLM Embeddingモデルが利用可能に
Cortex LLM関数の1つであるEMBED_TEXT_768関数で利用できるLLMモデルが追加されました。
「snowflake-arctic-embed-m」を引数に渡すと利用可能になります。
Streamlit in Snowflakeのカスタムスリープタイマーが利用可能に
config.toml構成ファイルにタイマーを指定することでStreamlitアプリの自動停止時間がデフォルトで15分だったところを5〜240分の間の任意の値を設定できます。
ASOF JOIN句がGAになりました
近接性に基づいてテーブルを結合する際に用いられるASOF JOIN句がGAになりました。
時系列データの結合などに用いられる結合方法で、類似の方法を行う際は複雑なクエリを用意する必要がありましたが、この機能によって実装が容易になりかつパフォーマンスが効率化されます。
Streamlit in SnowflakeのGCPサポートがGAになりました
プレビュー機能として提供されていたGoogle Cloud Platform上のSnowflakeでのStreamlitがGAになりました。
EXECUTE IMMEDIATE FROM の Jinja2 テンプレートがサポートされるようになりました
EXECUTE IMMEDIATE FROM コマンドのテンプレート利用時に、jinja2 テンプレート ファイルを使用して、SQL スクリプトを生成および実行ができるようになりました。
柔軟な制御が可能となり、テンプレート変数を使用したパラメーターによる制御が可能になります。
Python ユーザー定義集計関数が利用可能に
SnowflakeのPythonハンドラーを使用したユーザー定義集計関数(UDAF)が利用できるようになりました。複数行を受け取って、合計・平均などの一般的な集計から加重平均などの複雑な集計を実装したい際に利用可能です。
Looker Studioのニュースまとめ
グラフタイトルが利用可能に
グラフに直接タイトルが追加できるようになりました。フォント、フォントサイズ、フォントカラー、スタイル、位置をカスタマイズできます。
これまで別途テキストを追加していた方には便利な機能ですが、背景色のカスタマイズはできないので、今後のアップデートが期待されます。
スケジュールやアラートのイベントログが追加
イベントログにスケジュールやアラートが含まれるようになりました。Looker Studio管理者は組織内のLooker Studioユーザーがスケジュールやアラートをどのように利用しているかを監査および監視できるようになります。
Lookerデータソースが機能拡充されました
下記3点の機能拡充がされました。
- LookMLフィルターが表示されるようになりました
- ドリルアクションメニューでドリルフィールドとリンクが利用できるようになりました
- フィルターのみのフィールドが利用できるようになりました
Looker StudioフォーラムがGoogle Cloudに移管されました
Looker Studio、Looker Studio Proユーザー向けのフォーラムがGoogle Cloudに公開されました。ユーザー間での質問や交流を行うことができます。
新たなパートナーコネクタが追加されました
下記のパートナーコネクタがLooker Studioレポートギャラリーに追加されました。
- Pro Rank Tracker - SEO Data by F.T.B ONLINE LTD.
- CallRail by Catchr.io
- Basis by Supermetrics
- Facebook Ads by Adzviser
- LinkedIn Revenue Attribution by Supermetrics
- Pinterest Organic by Catchr.io
dbtのニュースまとめ
dbt Core - dbt Core v1.8がリリースされました
dbt v1.8では単体テストが標準機能としてサポートされるようになりました。
v1.8以降、dbt testコマンドを実行すると単体テストとデータテストの両方が実行されます。どちらか一方のみを実行するにはtest_typeを指定します。
dbt test --select "test_type:unit" # run all unit tests
dbt test --select "test_type:data" # run all data tests
dbt Coreに関するその他の変更点はこちらをご参照ください。
dbt Cloud - dbt Assistのプライベートβ版がリリースされました
dbt AssistはAIによるco-pilot機能でdbt SQLモデルのドキュメントおよびテストをdbt Cloud IDE内で自動的に生成します。
dbt Assistはdbt Cloud IDE内でのみ利用可能で、dbt Cloud Enterprise アカウントが必要になります。
dbt Cloud - ローコードエディタ機能がプライベートβ版としてリリースされました
dbt Cloud内でGUI上でドラッグ&ドロップの操作で dbt モデルを作成・編集できます。
これまでのdbtモデルと同様、直接SQLにコンパイルされ、バージョン管理も可能です。
この機能によりSQLに詳しくないユーザーでもdbtでモデルを作成・編集できます。
dbt Cloud - dbt Cloud CLIがGAになりました
dbt Cloud CLI では、ローカルのコマンドラインから dbt Cloud開発環境に対して dbt コマンドを実行できます。
dbt Cloud - ステージング環境が GA になりました
ステージング環境を使用して、本番データへのアクセスを制御しながら、デプロイメントワークフローやツールへのアクセスを開発者に許可できるようになります。
dbt Cloud - dbt MeshがGAになりました
dbt Meshは、組織がチームとデータ資産を効率的に拡張するためのフレームワークです。ガバナンスのベストプラクティスを促進し、大規模なプロジェクトを管理しやすいセクションに分割することが可能になります。
dbt Cloud Enterpriseのユーザーが利用可能です。
dbt Cloud - dbt Semantic LayerでTableau Desktop, Tableau ServerおよびGoogle Sheetsの統合がGAになりました
TableauまたはGoogle Sheetsからセマンティックレイヤーに直接クエリを行い、信頼できるデータの参照が可能になります。
この機能はdbt Cloud TeamまたはEnterpriseアカウントで利用できます。
dbt Cloudに関するその他の変更点はこちらをご参照ください。
Amazon QuickSightのニュースまとめ
Amazon Q in QuickSightの一般提供が開始されました
Amazonは、生成AI機能であるAmazon Q in QuickSightの一般提供を開始しました。
自然言語による質問を通じてインサイトを提供する「QuickSight Q」は以前から公開されていましたが、今回のリリースでさらに強化されました。また、分析者や作成者向けの補助機能である「Generative BI」も、パブリックプレビューを経て、正式に公開されました。
新機能は利用者向けのインサイト抽出の強化に加え、分析者や作成者がBI(ビジネスインテリジェンス)を作成する際の補助機能や、作成したダッシュボードからプレゼンテーションのストーリーを構築する機能を提供します。
このリリースに伴い、QuickSightのユーザーロールに新しく「作成者プロ」および「閲覧者プロ」が追加され、価格体系にも変更が加えられました。
既存の「閲覧者」ロールは、これまではセッション数による従量課金制でしたが、固定料金に変更されます。
- 旧価格: セッション数による従量課金で、最大5 USD/ユーザー/月
- 新価格: 3 USD/ユーザー/月
ロールと機能の一例は下記です。
閲覧者プロおよび作成者プロユーザー向け機能 | ストーリー:自然言語を使用して指示することで、ドキュメントやプレゼンテーションを作成。エグゼクティブサマリー:データの傾向や変化についてのエグゼクティブサマリーを生成。 |
作成者プロユーザー向け機能 | ダッシュボード構築の補助:ビジュアル構築・計算フィールドの構築・ビジュアルの調整を自然言語で依頼し、生成。 |
詳細はこちらをご参照ください。
Databricksのニュースまとめ
Databricks Runtime15.2、15.3(Beta)がGAになりました
Apache Spark 3.5.0に対応したDatabricks Runtime 15.2,および15.3(Beta)がリリースされました。
詳細な変更点は以下のページをご参照ください。
- https://docs.databricks.com/ja/release-notes/runtime/15.2.html
- https://docs.databricks.com/ja/release-notes/runtime/15.3.html
The compute metrics UIがGAになりました
The compute metrics UI は、すべての Databricks Runtime バージョンにロールアウトされました。以前は、これらのメトリックは、Databricks Runtime 13.3 以降で実行されているコンピューティング リソースでのみ利用可能でした。
SnowflakeへのフェデレーテッドコネクションにOAuthサポートが追加
Unity CatalogはSnowflakeのconnection作成にOAuthをサポートしました。
Mosaic AI Vector Searchに新機能が追加
Mosaic AI Vector Searchに以下の新規機能が追加されました。
- PrivateLinkとIPアクセスリストがサポートされました。
- Customer Managed Keysが2024年5月8日以降に作成されたエンドポイントからサポートされており、現在public previewの状態になっています。
- 監査ログの機能が強化されました。
- generated embeddingの保存先として、delta tableを選択できるようになりました。
Gitフォルダー機能がGAになりました
Databricks notebookなどのファイルを外部のGitプロバイダーと連携するための、Gitフォルダー機能がGAになりました。なお、以前から提供されているGitとDatabricks notebookを連携するGit Repos機能はレガシー機能として扱われ、移行方法も準備されています。
基盤モデルトレーニング機能でMeta Llama3をサポート
基盤モデルトレーニングのベースモデルとして、Meta Llama3をサポートしました。
TROCCO®のニュースまとめ
Snowflakeでのテーブル書き込み設定に新たな選択肢を追加
出力先テーブルの書き込み設定として、全件洗い替えモードをTRUNCATE INSERTとREPLACEの2種類から選択できるようになりました。
- TRUNCATE INSERTの場合、既存テーブルのスキーマは削除されません。
- REPLACEの場合、既存のテーブルのスキーマは削除されます。
両者の違いについて、詳しくはデータマート - Snowflakeをご参照ください。
Microsoft SQL Server接続情報にてSSH秘密鍵のパスフレーズを入力できるように
設定項目にSSH秘密鍵のパスフレーズを追加しました。
これにより、Microsoft SQL Serverに対してパスフレーズ付きの秘密鍵で接続できるようになりました。
APIのバージョンをアップデートしました
転送元Google Ads・転送先Google Ads コンバージョン
転送時に使用するGoogle Ads APIのバージョンを、v14.1からv16へアップデートしました。
新バージョンについては、Google Ads APIのドキュメントを参照ください。
転送元Yahoo!検索広告・転送元Yahoo!ディスプレイ広告(運用型)
転送時に使用するYahoo!広告 APIのバージョンを、v11からv12へアップデートしました。
新バージョンについて、それぞれ以下のドキュメントを参照ください。
COMETAのニュースまとめ
データの発見・理解・活用を促進するデータカタログ「COMETA」のリリース
株式会社primeNumberは、2024年5月にデータの発見・理解・活用を促進するデータカタログ「COMETA」をリリースしました。
「COMETA」は、データの発見・理解・活用に重点を置いたデータカタログサービスです。保有するデータの活用リードタイム短縮、ガバナンス、品質モニタリングを可能にし、データによる意思決定を行う文化の醸成を目指します。また、お客様ごとのデータ活用のフェーズや、部署を横断するなど社内でのデータ活用の展開範囲に応じたご利用が可能なよう、小さく始めて順次拡張いただける料金体系にてサービスを提供します。
詳細はこちらをご覧ください。
複数のカラムを選択して同時にリネージを表示できるように
COMETAのカラムリネージ機能にて、任意のテーブル内のカラムを複数選択できるようになりました。
これにより、複数のリネージを同時に閲覧できるようになりました。
プロジェクト・データセットもお気に入りに登録できるように
プロジェクト(またはデータベース)・データセット(またはスキーマ)をお気に入りに登録できるようになりました。
テーブルに加えて、お気に入りに登録できるアセット種類が追加されました。
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。