2022/12/08
Spark SQL でデータフレームを多段階でつなぎ合わせる ETL のデータ加工処理を作り込んでいます。
ユニットテストもデータフレーム毎に実装してます。 pyspark で実装してるので、 python の カバレッジツールも入れているのだけど、これのカバレッジって、 python のプログラムのカバレッジであって、SQLの中の分岐を評価してくれてるわけではない。
SQL じゃなくて、RDD でデータフレームを実装したら、カバレッジがどうなるんだろう・・・。
SQL の中を評価するカバレッジツールがあったらいいのにな。欲しいな。