きどたかのブログ

いつか誰かがこのブログからトラブルを解決しますように。

Spark

PySparkでの最頻値mode

pandasにはあるけど、pysparkにはない代表格と言っても良いかもしれない。 modeでピンとこない人は、most frequentだったり、most commonなどでも検索します。ネットで探すといくつか実装例がある。 少しは参考にした。自分が先日書いたコードだとどんな感じ…

PySparkのadd_monthsでカラムを使う

EMRのバージョンの関係で今、PySpark 2.4.5を使っている。Pythonという言語にはオーバーロードがないためなのか、Scalaでは用意されてるメソッドが呼び出せないなんてことが稀にある。PySparkのadd_months(start, months)の docstringの例で、startはColumn…