こんにちは、marqsです。Databricks、使っていますか?私は使っています。非常に自分のメンタルモデルに合う製品で、とても使いやすいです。AWSで自前で構築していたら面倒なタスクも、かなり簡単にできたりしますよね。本当に素晴らしいソリューションです。
でも…お高いんでしょう?
そう、使い方によってはコストが高くなり得ます(多分)。そこで今日は、コストを抑えつつ便利に使う方法を5つ紹介します!
1. Notebookは共有クラスターで使いましょう
一人1インスタンスではなく、共有クラスター(最低で2台からかな?)をみんなで使いましょう。
Notebookでコードを書いているとき、意外と「コードを眺める時間」が長いですよね?共有クラスターでも十分に作業はできるので、最小サイズのインスタンスで共有クラスターを一つ立ち上げましょう。非アクティブ状態が続いたら終了する設定もお忘れなく。
2. サーバーレスは便利だけどご注意
サーバーレスオプションは非常に便利ですが、使い方次第でコストがかかるので、適材適所で使いましょう。
SQLウェアハウスのサーバーレスクラスターサイズはXXSにすることをお忘れなく!
3. 重いタスクはジョブ化しましょう
重いタスクをNotebook上で長時間実行するのは非効率です。
代わりに、Notebookのコードをジョブ化してクラスター上で実行しましょう。
Databricksを使えば、ジョブ化もとても簡単ですよ〜。
4. なるべくSQLウェアハウスを使わない
SQLを書く場合、SQLウェアハウスは使わず、1.で言及した共有クラスター上のNotebookで実行しましょう。
ちょっとしたSQLクエリなら全然いけます。
5. ダッシュボードはスケジュール実行で最適化
ダッシュボードを使う場合、スケジュール実行を設定して事前にデータを更新しておきましょう。毎回クエリが実行されるとコストがかかりますが、データをあらかじめキャッシュしておけば節約できます(多分)。
まとめ
これらのTipsを組み合わせることで、Databricksの便利さを最大限に活用しつつ、コスト爆増を防げるかもしれません!試してみてね。「こんなTipsもあるよ!」という方も、ぜひ教えてください!
それでは、Enjoy Databricks Life! 🚀