機器人可以操縱數據,將事實更改為虛構嗎?

"數據驅動"是一個新的流行語,正在使企業和所有類型的行業風暴。簡言之,被數據驅動是rad,而且有充分的理由。

“數據驅動”是一個新的流行語,正在使企業和所有類型的行業風暴。簡言之,被數據驅動是rad,而且有充分的理由。數據已成為數位化轉型中最重要的商品,因為它區分了事實和觀點。它幫助組織和團隊積極主動,做出自信的決策,甚至具有成本效益。
同時,最近對數據的這種強調是建立在我們用於決策的數據是值得信賴的假設之上的。隨著我們越來越依賴它,它可能造成的潛在損害反過來增加。
我們在 F5 實驗室是一個很酷的團隊,絕對是數據驅動的。因此,在結束 2020 年時,我決定使用我們自己的數據和指標系統來運行我們的冷卻裝置實驗,並演示數據操作對現代業務的影響。為此,我與內部數據魔術師克裡斯汀合作。由於這是一個隱秘的項目,我們共同理解文章元素來操縱,不會扭曲指標太多,引起騷動(我們想保住我們的工作)。在這集的酷孩子F5實驗室打破的東西,我們操縱我們自己的Web指標,以顯示如何容易和多大的影響,這將是扭曲操作的數據驅動的企業。

圖1

因此,簡單的目標是生成假流量,並能夠改變一些見解,而不是陷入過程中。我一開始,就意識到具有拉取請求的簡單命令行工具是不夠的。克裡斯汀和她的工具很快就把這些嘗試搞砸了。例如,一個從我的筆記型電腦運行的機器人設法達到頁面流覽高峰,但引起了對該段參與率的懷疑,所以她把它踢到路邊。

設置
回到繪圖板,這次有一個計劃。我們決定躲在多個代理後面,類比人類行為,避免生成突發流量。
簡單的設定包括:
機器人機器生成假流量。對於這個例子,我們有一個機器人用python編寫,利用Selenium.1
代理伺服器,用於跨不同地區分配流量。我們使用 Internet 上可用的代理組合,並在兩個不同的 AWS 區域添加了一些我們自己的代理。使用的計算機位於雲供應商的免費使用層中,並運行 Tinyproxy 實例。
選擇的目標文章來隔離虛假流量,不干擾常規統計資訊。

圖2.設置以生成假流量。

結果
設置完成後,我們決定將其用於旋轉,並發送單個文章的虛假請求,該文章在兩天內分發,代理位於不同區域。這一次的結果對我們有利:
代理伺服器有助於維護流量分佈模式。如圖 3 所示,流量合併良好,沒有來自任何區域的重大峰值。

圖3.代理伺服器有助於維護流量分佈。


我們設法提高了收視率。圖 4 顯示了舊文章的頁面視圖(淺藍色),以及使用假流量進行跳躍(以深藍色顯示)。該圖表示對內容重新產生了興趣。

圖4.頁面視圖比較與和沒有假機器人流量。

通過一些額外的調整(如單擊鏈接、滾動頁面),我們能夠保留像頁面速度這樣的統計資訊,以衡量內容驅動器的附加頁面流覽量。這對於確定有助於提高參與度的內容是好事。在正常範圍和參與率中, 參與率 = EEC 訪問次數 / 總存取次數,其中 EEC = 參與級別包括一定量現場平均時間、滾動深度和點擊次數的 2.39% 的存取次數。總的來說,假流量與真正的流量很好地融合在一起。如果我們繼續抽走假流量,舊文章在頁面流覽量中的排名會比新報告(以網路釣魚和欺詐報告)更好。

圖5.機器人生成的流量的指標操作

接下來是與其他團隊成員搗亂的時候。團隊對使用者感興趣,希望查看使用者搜索內容,包括作者、文章主題或攻擊類型。機器人決定感謝克裡斯汀的所有説明,所以我們使她的名字在很短的時間內搜索最多的術語(我們不想讓她惹上麻煩)。

圖6.唯一使用者搜索以操作趨勢清單

結論
數據是我們信任的基礎,然而,通過一點點的準備和免費工具的知識,我們設法操縱它,以我們的優勢。我們的小實驗被程式設計為無害,但同樣的技巧可以用來欺騙企業敏感的數位資產指標,而且規模要大得多。例如,機器人不斷刮價格會導致航空公司的熱門航線分析出現偏差;內容刮擦為數位行銷團隊製造了虛假印象。這種虛假流量帶有價格標籤,因為如今的組織會根據數據洞察擴展/縮減其資產和庫存。因此,某些組織可能是時候部署機制來保護數據的完整性,並拒絕引入虛假和捏造的流量。

 

 

 

關於作者
沙赫納瓦茲後衛
沙赫納瓦茲·巴瑟是F5實驗室的主要安全顧問。他對現代應用程式開發、數位標識和欺詐媒介有著濃厚的興趣,專注於將安全情報構建到解決方案中,並堅信自動化主動防禦。

分享此篇文章
%d 位部落客按了讚: