オンラインデートのマッチングに関するデータ分析

ゆかり

2024/06/25

data-facts-of-online-dating-matches
data-facts-of-online-dating-matches
data-facts-of-online-dating-matches
data-facts-of-online-dating-matches

データセットについて

名称:Predict Online Dating Matches Dataset

提供元: Kaggle

AIデータ分析提供: Powerdrill AI

本日、「予測:オンラインデーティングのマッチングデータセット」という興味深いデータセットを見つけました。これはオンラインデーティング行動に関する1,000件の匿名データを含んでおり、powerdrill.aiを使用してさらに分析を行いました。

関連する分析項目

  1. VIP会員権における男女差: VIP会員権を購入する男女の割合に有意な差はあるか?

  2. 収入とVIP会員権: 収入レベルとVIP会員権購入の可能性との間に相関関係はあるか?

  3. 年齢とマッチ数: 年齢はユーザーが受け取るマッチ数にどのように影響するか?

  4. 魅力度とマッチ数: ユーザーの魅力度評価とマッチ数との間に相関関係はあるか?

  5. 子どもの有無とオンラインデーティング行動: 子どもがいることはマッチ数とVIP会員権購入の可能性にどのように影響するか?

  6. 収入分布: ユーザーの収入分布はどうなっており、性別によってどのように異なるか?

  7. 年齢分布: ユーザーの年齢分布はどうなっており、性別によってどのように異なるか?

  8. 魅力度評価: ユーザーの魅力度評価の分布はどうなっており、年齢や収入などの他の変数とどのように相関するか?

  9. VIP会員権とマッチ数: VIP会員権を持つユーザーは、持たないユーザーと比べてより多くのマッチを受けるか?

  10. デモグラフィックプロファイル: VIP会員権を購入する可能性が最も高いユーザーのデモグラフィックプロファイル(年齢、収入、子どもの有無)はどのようなものか?

これらの分析項目は、オンラインデーティングにおけるユーザーの行動や嗜好を理解する上で役立ちます。それでは、結論を見ていきましょう。

1. VIP会員権を購入する男女の割合に有意な差はあるか?

VIP会員権購入における男女差:

  • 女性のVIP購入割合:

    • 女性の**47.65%**がVIP会員権を購入しています。

  • 男性のVIP購入割合:

    • 男性の**47.14%**がVIP会員権を購入しています。

統計的有意性:

  • 男女間のVIP会員権購入の差は、統計的に有意ではありません。これは、パーセンテージが近いこと(女性47.65%、男性47.14%)と、「Yes_VIP_Percentage」列の標準偏差が低いこと(標準偏差=0.36)が示しています。

全体的な洞察:

  • 両性ともVIP会員権の購入に対して同様の傾向を示しており、女性の方がわずかに購入する可能性が高いものの、その差はごくわずかです。

2. 収入レベルとVIP会員権購入の可能性との間に相関関係はあるか?

提供された情報と可視化された分析データに基づくと、収入レベルとVIP会員権購入の可能性との相関関係に関して以下の結論が導き出されます。

  • 相関分析: 統計データは、収入レベルとVIP会員権購入の可能性との間にわずかな負の相関があることを示しています。「PurchasedVIP」が「No」の回答者の方が、平均収入がわずかに高く(51,175.20ドル)、一方「Yes」の回答者は50,781.21ドルでした。

  • 視覚的表現: ボックスプロットによる可視化も統計データを裏付けており、VIP会員権を購入していない人々の収入中央値が、購入した人々よりもわずかに高いことを示しています。両グループの四分位範囲(IQR)は非常に小さいように見え、各グループ内での変動が低いことを示唆しています。

  • 収入差: 両グループ間の平均収入の差は393.99ドルであり、全体の収入レベルを考慮すると比較的小さいです。これは、収入がVIP会員権購入の強力な予測因子ではない可能性を示唆しています。

強調すべき主なポイント:

  • 収入とVIP会員権購入の間にわずかな負の相関がある。

  • VIP非会員の方が平均収入がわずかに高い。

  • VIP会員と非会員の両グループで収入のばらつきが低い。

  • グループ間の収入差はごくわずかであり、VIP会員権購入の決定には他の要因が影響している可能性がある。

3. 年齢はユーザーが受け取るマッチ数にどのように影響するか?

提供されたデータと、年齢と平均マッチ数の関係の可視化に基づき、以下の結論を導き出すことができます。

  • マッチ数のばらつき: 平均マッチ数は、異なる年齢層によって大きく異なります。

  • 若年層および中年層でのマッチ数のピーク: 18〜24歳30〜34歳の年齢層が平均マッチ数が最も高く、それぞれ81.5282.78でした。

  • 30代後半でのマッチ数の減少: 35〜39歳の年齢層では平均マッチ数が顕著に減少し、最低の68.98となりました。

  • 40代前半でのマッチ数の回復: 40〜44歳の年齢層では平均マッチ数が78.29に増加しています。

4. ユーザーの魅力度評価とマッチ数との間に相関関係はあるか?

提供されたコンテキストと散布図の可視化に基づき、「魅力度」と「マッチ数」の関係について以下の結論が導き出されます。

  • 相関: 「魅力度」と「マッチ数」の間の相関係数は0.31であり、これは正の相関ではあるものの弱い関係を示しています。これは、魅力度評価が高まるにつれて、マッチ数も増加する傾向があることを示唆していますが、マッチ数を決定する上では他の要因も大きく影響している可能性があります。

  • データ分布: 魅力度評価の平均は5.62で標準偏差は2.82、マッチ数の平均は76.05で標準偏差は52.71です。これは、魅力度とマッチ数の両方に幅広い値が存在することを示しています。

  • 散布図分析: 散布図は、魅力度が高いほどマッチ数も多くなるという正の傾向がある程度見られることを示しています。しかし、魅力度が高いにもかかわらずマッチ数が少ない、あるいは魅力度が低いにもかかわらず多くのマッチを受けているケースも存在します。

  • 外れ値と異常値: 散布図は、例えば魅力度が高いのに予期せぬほどマッチ数が少ない個人、あるいは魅力度が低いのに多くのマッチを受けている個人など、外れ値や異常値を示すこともあります。これらのケースは、魅力度だけでは説明できないダイナミクスを理解するために、さらなる調査の対象となり得ます。

  • 結論: 魅力度とマッチ数との間には正の相関がありますが、その関係は強力ではなく、ユーザーが受け取るマッチ数には他の要因も影響している可能性が高いです。データは、魅力度がプラットフォーム上のマッチングプロセスに影響を与えるいくつかの要因の一つに過ぎないことを示唆しています。

5. 子どもの有無はマッチ数とVIP会員権購入の可能性にどのように影響するか?

子どもの有無がマッチ数に与える影響

提供されたデータに基づき、子どもの有無がユーザーが受け取る平均マッチ数に与える影響は以下の通りにまとめられます。

  • 子どもがいないユーザーは平均76.02のマッチ数です。

  • 子どもが1人いるユーザーはわずかに少ない平均74.76のマッチ数です。

  • 子どもが2人いるユーザーは平均75.71とわずかに増加しています。

  • 子どもが3人いるユーザーは平均マッチ数が最も高く、80.83でした。

データは、子どもが3人いるユーザー最も多くのマッチを受け、子どもが1人いるユーザー最も少ないマッチを受けることを示唆しています。しかし、各グループ間での平均マッチ数の差は比較的小さく、子どもの人数がマッチ数に与える影響はわずかであることを示しています。

子どもの有無がVIP会員権購入の可能性に与える影響

子どもの人数に基づくVIP会員権購入の可能性の分析は以下の通りです。

  • 子どもがいないユーザーのVIP会員権購入割合は0.487864 (48.79%)です。

  • 子どもが1人いるユーザーはわずかに低い割合で0.469388 (46.94%)を示しています。

  • 子どもが2人いるユーザーは最も低い割合で0.429293 (42.93%)です。

  • 子どもが3人いるユーザーはVIP会員権を購入する可能性が最も高く、その割合は0.520833 (52.08%)でした。

この傾向は、子どもが3人いるユーザーがVIP会員権を最も購入しやすい一方で、子どもが2人いるユーザー最も購入しにくいことを示しています。VIP会員権の購入割合の変動は、ユーザーが持つ子どもの人数がVIP会員権購入の決定に顕著な影響を与える可能性があることを示唆しています。

6. ユーザーの収入分布はどうなっており、性別によってどのように異なるか?

ユーザー全体の収入分布:

  • 分析対象ユーザー総数: 1,000人

  • 平均収入: 50,988.45ドル

  • 標準偏差: 9,889.34ドル

  • 最低収入: 20,786.00ドル

  • 25パーセンタイル: 44,358.50ドル

  • 中央値 (収入): 50,841.50ドル

  • 75パーセンタイル: 57,396.00ドル

  • 最高収入: 81,931.00ドル

性別ごとの収入分布:

  • 女性ユーザー:

    • 人数: 510人

    • 平均収入: 51,329.89ドル

    • 標準偏差: 10,195.75ドル

    • 最低収入: 21,514.00ドル

    • 25パーセンタイル: 44,509.50ドル

    • 中央値 (収入): 51,259.00ドル

    • 75パーセンタイル: 58,137.75ドル

    • 最高収入: 81,931.00ドル

  • 男性ユーザー:

    • 人数: 490人

    • 平均収入: 50,633.07ドル

    • 標準偏差: 9,557.44ドル

    • 最低収入: 20,786.00ドル

    • 25パーセンタイル: 44,204.00ドル

    • 中央値 (収入): 50,593.00ドル

    • 75パーセンタイル: 56,661.50ドル

    • 最高収入: 75,269.00ドル

主な観察結果:

  • 全体の収入分布は、平均値を中心に中程度のばらつきがあることを示しています(標準偏差9,889.34ドル)。

  • 女性ユーザーの収入分布は、男性ユーザーと比較してわずかに平均収入が高く最高収入も高いことが示されています。

  • 男性ユーザーの収入分布は、女性ユーザーと比較して中央値が低く最高収入も低いことが示されています。

  • 女性ユーザーの75パーセンタイルは男性ユーザーよりも顕著に高く、これは女性ユーザーの上位25%の収入がより高い傾向にあることを示唆しています。

7. ユーザーの年齢分布はどうなっており、性別によってどのように異なるか?

ユーザーの年齢分布

  • 全体の年齢範囲: 18歳から49歳

  • 平均年齢: 33.5歳

  • 標準偏差: 9.38歳

  • 最も一般的な年齢層: 20代前半から30代後半

性別ごとの年齢分布

  • 女性ユーザー:

    • 人数: 510人

    • 平均年齢: 34.55歳

    • 標準偏差: 9.18歳

    • 年齢範囲: 18歳から49歳

    • 中央値 (年齢): 35歳

    • 四分位範囲: 27歳から43歳

  • 男性ユーザー:

    • 人数: 490人

    • 平均年齢: 34.69歳

    • 標準偏差: 9.13歳

    • 年齢範囲: 18歳から49歳

    • 中央値 (年齢): 35歳

    • 四分位範囲: 27歳から42歳

観察結果

  • 年齢分布は男女間でかなり似ており、男性の方が平均年齢がわずかに高いです。

  • 中央値年齢は男女ともに35歳であり、中心値の周りの分布が均衡していることを示しています。

  • 四分位範囲は女性の方がわずかに広く、男性ユーザーと比較して女性ユーザーの年齢に多少のばらつきがあることを示唆しています。

8. ユーザーの魅力度評価の分布はどうなっており、年齢や収入などの他の変数とどのように相関するか?

魅力度と収入の相関:

  • 「魅力度」と「収入」の間の相関は、約0.0055という非常に低い値です。これは、これら2つの変数間に有意な線形関係がないことを示唆しています。

魅力度評価の分布:

  • 提供されたヒストグラムは、ユーザー間の魅力度評価の分布を示しています。評価はスケール全体にかなり均等に分布しているように見え、中程度の評価(4、5、6)にわずかに偏りが見られます。

魅力度と年齢の相関:

  • 「魅力度」と「年齢」の間の相関は、約**-0.0508という負の値です。これは、年齢が上がるにつれて魅力度評価がわずかに低下する非常にわずかな傾向を示していますが、その関係は弱い**です。

主な観察結果:

  • 魅力度と収入、または魅力度と年齢との間に強い相関は見られない

  • 魅力度評価はユーザー間で均等に分布しており、高い評価または低い評価への極端な偏りはない。

  • 視覚的データも統計的知見を裏付けており、散布図には明確なパターンや傾向が示されていない。

9. VIP会員権を持つユーザーは、持たないユーザーと比べてより多くのマッチを受けるか?

  • VIP会員権の影響: VIP会員権を持つユーザーは、持たないユーザーと比較して有意に多くのマッチを受けています。

    • 非VIP会員の平均マッチ数: 59.14

    • VIP会員の平均マッチ数: 94.81

  • 統計的有意性: 標準偏差は25.22であり、これは両グループ間にかなりの差があることを示唆しています。

  • データ概要: この分析は、VIP会員と非VIP会員という2つの明確なグループに基づいています。

推奨事項: このデータは、VIP会員権を購入することが、マッチ数を増やしたいユーザーにとって有益である可能性を示しています。

10. VIP会員権を購入する可能性が最も高いユーザーのデモグラフィックプロファイル(年齢、収入、子どもの有無)はどのようなものか?

VIPユーザーの年齢分布:

  • VIPユーザーの平均年齢は34.51歳です。

  • 年齢範囲は18歳から49歳で、中央値年齢が35歳であることから、ユーザーの大部分が30代半ばに属しています。

  • 年齢分布は、標準偏差が9.29歳と比較的標準的であり、平均年齢周辺に中程度のばらつきがあることを示しています。

VIPユーザーの収入分布:

  • VIPユーザーの平均収入は50,781.21ドルです。

  • VIPユーザー間の収入は大きく異なり、標準偏差は9,379.35ドルです。

  • VIPユーザーの収入範囲は25,005ドルから81,931ドルです。

  • 収入の中央値は50,656.50ドルであり、これはVIPユーザーの半数がこの金額より少なく稼ぎ、残りの半数がそれ以上稼いでいることを示唆しています。

VIPユーザーの子どもの有無の分布:

  • VIPユーザーの平均子どもの人数は1.50人です。

  • 標準偏差は1.29であり、子どもの人数に幅広いばらつきがあることを示しています。

  • 子どもの人数は0人から3人の範囲であり、最も多いのは0人(201人)、次いで1人(138人)、2人(85人)、3人(50人)となっています。