讓我們研究一下問題的法律方面,以幫助我們了解哪些網頁抓取活動符合當前的監管標準。
網站的服務條款。在本文中,我將討論從公開的線上資源中抓取專門的公共網路數據,這意味著任何人都可以獲得此類數據,而無需註冊或登入網站。通常,位於登入安全區域後面的資料受網站條款和條件的管轄。
版權。一些公共網路資料可能包含受版權保護的資料。處理此類數據時,您必須遵守適用的版權法。
隱私法。與受版權保護的資料類似,一些公共網路資料 銷售數據 可能包含受隱私權法保護的資料。世界各地的隱私法規不斷發展,並因司法管轄區而異。
例如,美國各州的大多數法規,如《加州消費者隱私法案》(CCPA),並未將公開的資訊歸類為個人資料。然而,《一般資料保護規範》(GDPR)等歐洲法規並未豁免公共資料。因此,在收集網路資料時必須考慮GDPR相關的資料安全和隱私措施。
現在您已經熟悉了網頁抓取的法律方面,我將提到最著名的法庭案件之一,該案件說明這些法律要求如何適用於網頁抓取技術的實際使用。
LinkedIn 與 hiQ Labs
2017 年,領英向資料科學公司 hiQ Labs 發出了一封停止信,該公司抓取了公開的領英資料並利用這些資料創建工具和見解。此案最終演變成一場長達6年的法律糾紛,現在被稱為網路抓取產業的里程碑案件。
第一次法庭判決對 hiQ Labs 有利,但 LinkedIn 提出上訴,認為 hiQ Labs 違反了《電腦詐欺和濫用法案》 (CFAA)。不過,當時法院裁定,由於 hiQ Labs 從 LinkedIn 抓取的資料是公開的,因此該公司並未違反 CFAA 的條款。
隨著法律糾紛的持續,案件的焦點轉向 hiQ Labs 使用虛假個人資料竊取 LinkedIn 資料。 2022 年的第二項裁決指出,使用虛假個人資料抓取登入牆後面的網路資料違反了網站的條款和條件。最終,兩家公司達成和解,hiQ Labs 同意停止抓取 LinkedIn 資料。
然而,必須強調的是,第二項裁決並沒有推翻有關 CFAA 和公共資料抓取的先前先例。相反,該判決針對的是另一個法律問題,主要涉及用戶協議以及從 LinkedIn 收集資料時使用虛假帳戶的問題。
值得注意的是,透過建立虛假帳戶,hiQ Labs 在訪問 LinkedIn 線上服務之前也接受了 LinkedIn 的用戶協議,該協議禁止創建虛假身份。
因此,美國地方法院於 2022 年 10 月 27 日作出的命令裁定,LinkedIn 的用戶協議禁止抓取和未經授權使用抓取的數據,並且 hiQ 透過 turkers 在 LinkedIn 平台上創建虛假身份違反了 LinkedIn 的用戶協議。
您仍應注意,公共網路資料抓取領域正在不斷變化,並且應關注涉及網路資料公司的相關判例法發展。
我建議就與之相關的任何商業活動諮詢法律專家。