貧者のDatabricks

こんにちは、marqsです。Databricks、使っていますか?私は使っています。非常に自分のメンタルモデルに合う製品で、とても使いやすいです。AWSで自前で構築していたら面倒なタスクも、かなり簡単にできたりしますよね。本当に素晴らしいソリューションです。

でも…お高いんでしょう?

そう、使い方によってはコストが高くなり得ます(多分)。そこで今日は、コストを抑えつつ便利に使う方法を5つ紹介します!

1. Notebookは共有クラスターで使いましょう

一人1インスタンスではなく、共有クラスター(最低で2台からかな?)をみんなで使いましょう。
Notebookでコードを書いているとき、意外と「コードを眺める時間」が長いですよね?共有クラスターでも十分に作業はできるので、最小サイズのインスタンスで共有クラスターを一つ立ち上げましょう。非アクティブ状態が続いたら終了する設定もお忘れなく。

2. サーバーレスは便利だけどご注意

サーバーレスオプションは非常に便利ですが、使い方次第でコストがかかるので、適材適所で使いましょう。
SQLウェアハウスのサーバーレスクラスターサイズはXXSにすることをお忘れなく!

3. 重いタスクはジョブ化しましょう

重いタスクをNotebook上で長時間実行するのは非効率です。
代わりに、Notebookのコードをジョブ化してクラスター上で実行しましょう。
Databricksを使えば、ジョブ化もとても簡単ですよ〜。

4. なるべくSQLウェアハウスを使わない

SQLを書く場合、SQLウェアハウスは使わず、1.で言及した共有クラスター上のNotebookで実行しましょう。
ちょっとしたSQLクエリなら全然いけます。

5. ダッシュボードはスケジュール実行で最適化

ダッシュボードを使う場合、スケジュール実行を設定して事前にデータを更新しておきましょう。毎回クエリが実行されるとコストがかかりますが、データをあらかじめキャッシュしておけば節約できます(多分)。

まとめ

これらのTipsを組み合わせることで、Databricksの便利さを最大限に活用しつつ、コスト爆増を防げるかもしれません!試してみてね。「こんなTipsもあるよ!」という方も、ぜひ教えてください!

それでは、Enjoy Databricks Life! 🚀