【Python】uniqueで重複した要素を処理

プログラム

仕事で問い合わせ用のメールアドレスに大量にメッセージが届きます。
そのメールを分析しようと今はいろいろプログラムを試しています。
その時に返信や転送でやり取りでついたRe:やFw:は以前の記事で前処理をしました。
前処理をした結果、同じ件名がいくつもある状態なので同じ件名の情報は
統合する処理をしていきます。

まずは空のDataFrameを用意します。

df_unique_subject = pd.DataFrame(columns=['subject', 'word_list'])

そしてそのDataFrameにuniqueを使って重複をしていない状態で格納します。

df_unique_subject = pd.unique(df_mail_list['subject'])
# df_mail_listに元のメールデータを格納しています

この処理でユニークな件名だけの別のDataFrameを作成しました。
今、自分が考えている分析はメール内に使用される単語の傾向を分析したいと
考えているので統合する情報は単語リストです。

これで重複した件名の要素をなくすことができました。

タイトルとURLをコピーしました