Pyspark

Pyspark

Let's 分散処理

1
0
47
1
odangon
がお気に入り登録しました。

投稿日時:

  • プロンプト実行例
Pyspark

Let's 分散処理 以下の形式に合わせてプロンプトを実行してください


処理内容: keyごとにvalueをsumする data = [(0, "A", 10), (1, "A", 20), (2, "B", 30), (3, "B", 40)] columns = ["id", "key", "value"]

処理内容: keyごとにvalueをsumする data = [(0, "A", 10), (1, "A", 20), (2, "B", 30), (3, "B", 40)] columns = ["id", "key", "value"]

Pyspark
Python
1from pyspark.sql import SparkSession
2from pyspark.sql import functions as F
3spark = SparkSession.builder.appName("example").getOrCreate()
4
5# 元データを作成
6data = [(0, "A", 10), (1, "A", 20), (2, "B", 30), (3, "B", 40)]
7columns = ["id", "key", "value"]
8
9# DataFrameを作成
10df = spark.createDataFrame(data, columns)
11
12# keyごとにvalueをsumする
13result_df = df.groupBy("key").agg(F.sum("value").alias("sum_value"))
14
15# 結果を表示
16result_df.show()

コメント 0

他のプロンプトもチェック