どうやってビッグデータに洗脳されたのですか

今お尋ねします:どの年代の人材がこの制品の典型的なユーザーですか?
この質問に対して、私は全部で3種類の答えを聞いたことがあります。
 
1つ目は30 ~ 39歳と考えられている。もし彼になぜと聞くならば、明らかにその部分の柱は最も高い…
2つ目は25 ~ 29歳と考えられている。高さは2番目だが、年齢の幅は5歳で、30 ~ 39歳の半分に過ぎないからだ。
3つ目は18歳から29歳までと考えられるが、道理は第二条と類似しており、これ以上説明しない。
 
では、どちらが正しいのでしょうか?たいていの人は二番目か三番目を選ぶでしょう。
私も最初は、この制品の典型的なユーザーは「若者」だと思っていました。(国家統計局の基準では15 ~ 34歳)
でも正直なところ、この結論には驚きました。なぜなら、私の常識で判断すれば、典型的なユーザーはやや年配の人であるはずだからです。
同製品は、健康食品のタイトル「デトックス」「ダイエット」「3高」下げ「便秘治」の「抗酸」の効能(君が先に足りないフォーカス笑ってそれを売りにし过ぎないで、テレビ広告の路子を歩いて)じゃない、これらの機能の属性を、「ダイエット」を除いて、私を信じない人は、私のように——常识で判断されれば、それらはもっと偏った中年。しかし、データの結果は常識的判断と矛盾している…。そのとき、あなたはデータを信じるべきなのか、常識を信じるべきなのか。
これは私が最近あるプロジェクトで経験した問題です「データは嘘をつかない」と言われる一方で、「リサーチすることが常識」と言われるから…。
でも、前に見た話を思い出してみると、問題はどんどん明るくなっていく。
 
一、第二次世界大戦の物語
第二次世界大戦中、連合軍の戦闘機は戦闘で大きな損害を被った。そこで連合軍本部は、物理学者や数学者を秘密裏に集め、「空軍の撃墜確率をどう減らすか」を研究した。
当時、軍は帰還機の被弾位置をすべて集計したが、翼部分には被弾が密集しており、胴体と尾部には被弾がまばらであったため、翼部分の防護を強化すべきだというのが当時の一般的な提案だった。
しかし、統計学者のウォードは、胴体と胴体の部分を強化すべきだと主張している。
ワード教授は、「すべてのサンプルは帰還し、飛行機を成功がまさに翼の攻撃可能性、本体と尾翼が密集した攻撃を受けない、だから成功によりこれらの飛行機が帰還し」
その後、一連の有力な論証を経て、軍は彼の提案を採用した。事後になっても、これは確かに正しい決定であり、空軍が撃墜される確率を有効に低下させた。
「生存者偏差」(Survivorship bias)とは
生存者偏差とは、情報を取得するルートが生存者だけから来た場合、その情報に実際の状況と異なる偏差が存在する可能性があることを意味する。(死んだ人は話せないから)
これまでのユーザ画像の例とどのような関係があるのでしょうか?
関係が深い。
データは嘘ではないが、データ(生存者)のある部分だけを示し、データ(戦死者)のない部分だけを示すことはできず、一方的だ。
前の例に翻訳した:もしスキャンコードのユーザーのデータだけで制品のユーザーの特徴を判断するならば、実際に制品を使用したがスキャンコードがないユーザーのデータを見落とした。そもそも、制品を使った人全員が必ずスキャンするわけではありません。
結果に影響を及ぼす可能性があります
1)異なる年齢層の人は異なるサイズの習慣を持っている——若者はサイズの方が好まれるかもしれないが、中高年の大部分はサイズの習慣を持っていない。
2)コードをスキャンする人は必ずしも制品のユーザーではない——若い人がその制品を買って目上の人に贈り、自分でコードをスキャンしたのかもしれない。
3)コピーを掃くように説得する文案にも影響がある——たとえば「掃くのが優遇されている」と言えば、最終的にはすべてのユーザーではなく「勘繰り」するユーザーの方に回ってしまうかもしれない。
 
つまり、完全なデータサンプルを得ることは永遠に不可能である。
 
そのため、最初の質問に戻ります。どの年代の人がこの製品の典型的なユーザーですか?
正確な答えは、このデータだけでは結論が出ないということだ。
ええ、今まで私は、中年が典型的なユーザーだと考えるほうが常識になっていました。(少なくとも30歳以上と考えられる)
 
二、洞窟のたとえ
プラトンは『理想の国』の第7編で、洞窟のたとえ(Allegory of the Cave)について有名な話をした。
深い穴を想定して、穴の中に囚人がいて、彼らは生まれつき鎖に縛りつけられて、穴の中に背を向けて、頭を回すことができなくて、目は穴の壁を見ることしかできません。
彼らの後ろには低い塀が作られていた。塀と穴の間には火が燃えていた。何人かがさまざまな器物を持って塀に沿って往来していた。人々がさまざまな器具を担いで塀の向こうの細道を通ると、その器物の映像が目の前の壁に投影された。
これらの映像は洞窟の中の囚人たちが見ることができる唯一のものなので、彼らはこれらの映像が世界の真実なものだと思った。


 
実際の生活では、データはこの比喩の壁の穴に印刷された画像のように、低次元のものを利用して、高次元のものを描こうとする。洞窟の映像をデジタル化すると、いくら技術が進んでいても、収集したデータがいくら多くても、洞窟の人々に真実の世界を感じ取ることができない。彼らが見ている世界が「次元圧縮」されているからだ。
一方で、常識とは?
常識はデータと同じで、一方的であることは否めない。そして、それぞれの人の常識は異なり、質もまちまちです。
しかしここでポイントにしたいのは、データよりも常識のほうがはるかに多くの角度から物事を分析できるということです。
人間の脳は奇妙で、関係のないように見えるものをたくさん結びつけているからだ。これは,どの計算機でもデータの形で行うことは困難である。
最も簡単な例を挙げれば、「一本の箸が折れ、十本の箸が折れ続ける」という現象を観察することで、それとは関係のない道理を知ることができる。結束は力である。同じ現象をコンピュータに任せれば、最後の結果は必ず「材料」「トルク」「力の強さ」につながる…

あるいはマイケル・アダムスが行った研究によると、米国の大学生の中間試験が近づくと、祖母が死亡する可能性は普段の10倍、期末試験の時は19倍になるという。(データは各大学からの欠席メールと論文提出延期の申請)
データだけを見ていると、学生のストレスが祖母の健康に影響を及ぼすと思うかもしれません。);しかし、常識的に考えれば簡単だ。試験を避けるために学生たちが「おばあちゃんが亡くなった」と休暇の言い訳を作った。

これは常識とデータの違いである。常識は多次元であり、データは一次元である。
 
三、データは嘘ではありません、しかしそれは人をぼかすことができます
データの真の価値は、その統計や計算結果にあるのではなく、人々がそれを正しく解読できることにある。しかしこれは困難です特にデータが欠けている場合です
私が以前に挙げた例のように
 
「2017社会大学英雄ランキング」によると、国内で胡潤百富ランキングに登録された2000人以上の資産20億以上の富豪のうち、半数が低学歴だ。(PS,低学歴は学部以下の学歴)
 
すみません:この記事からどのような結論が読み取れますか?
学歴の高さは収入とは関係ないと思う人も多いと思います。
しかし、その解釈は間違っている。
正しい読み方は何ですか?
べきは、中国は2016年末、人口約13.8おくのうち大卒および以上は3800まん、大卒以下は13.42おく——低学歴の人はもともと、高学歴の人よりはるかに高い(35倍)、それらをランキング入りの数とほぼ同じ。このため、高学歴者が上位にランクインする確率は、低学歴者の35倍に上る。
この例では,すべてのデータが真である。がもしデータの一部だけを見て、他のデータを见せず、それは容易にデータを坑された、間違った結論だ。
もちろん、より正確な結論を出すためには、さらに多くのデータを掘り出さなければならない。例えば:
 
[オピニオン]金持ちの年齢分布。結局、異なる年齢層の学歴分布は異なっている;業界の分布。なにしろ業種に対する学歴別の要求と関連の程度ではないように;これらの富裕層のうち、高学歴の収入と低学歴の収入の全体的な対比は…
 
うん、もしあなたは専門の学が集計した、こんなに要因が加入後、きっと崩壊して…しかし、慌てている必要はありません。ほとんどの場合、こんなに詳しいデータを知る機会がありません。
データで有名な新しい小売も含まれていますなぜ大部分の新規小売事業はまだ赤字になっているのか?実はそれらの規模だがまだ一定の量、データの次元が単一、依然として「計算」を出たものが依然足りない、正確なので効率の向上にもは限られている。
 
四、小結
ここまで読んだ文章かもしれませんが、心の中で呟いた、小云兄君这篇文章、教えたいデータはだめなのか?データの結果が正確でなければ、何が正確なのか。
まず、ここでは「データのだめに、たとえそれは一方的だった。
のいわゆる客観的に见なければならない問題を指すのでは必ずあなたこそすべてのデータを把握した後、結論が来月定説より前に、なるべく多方面一部資料と情報を把握しており、それ自体がいくら一方。
少しでも知っていれば、ミスを犯す確率は低くなります。一面を見て、客観的な真実に近づけるのが上達です。絶対に急にすべての問題の解決を試み、一気に正確な答えを得ると思ったり、それ自体が一種の誤った価値観、あるいは虚しい夢だ。(だから「何が正しいのか」を考えなくてもいい、そもそも存在しない)
のか自分でも知らないし、問題に进み、これこそ真の科学の発展の思想である。
一方のデータを片方だけすれば、独断の結論を下し、そしてのこしてだめ、それ、データのサンプルが多くてもあなたの結論とは真実でも日に差别の可能性が高い。