「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
西班牙政府要求網路搜尋引擎業者Google刪除有關於90位公民之個人資料搜尋結果。西班牙政府主張當事人具有「被遺忘之權利」(the right to be forgotten),但Google認為西班牙政府之要求將衝擊表達自由之權利。目前全案已進入訴訟程序。 該事件之主因為西班牙民眾發現透過網路搜尋引擎,可以搜尋包含地址、犯罪前科等個人資料。經民眾向西班牙隱私權保護機關(Spain Data Protection Agency)提出申訴後,西班牙政府命令Google刪除申訴民眾之個人資料之搜尋結果。 然而,Google的全球隱私顧問Peter Fleischer於個人部落格中提出個人意見,表示目前歐盟並未對於推行之「被遺忘之權利」給予明確定義,此舉將引起資訊科技發展與法律規範間之爭議。 近來歐盟所進行之民意調查指出,多數歐洲人希望能夠隨時要求網路公司刪除於網路上公開之個人資料,也就是希望擁有「被遺忘之權利」。所謂「被遺忘之權利」,係指只要是於網路上流傳且容易被搜尋之個人資訊,例如年代久遠或是令人尷尬的內容,當事人皆有權利要求刪除。 然而,根據1995年歐盟隱私保護指令(EU Data Protection Directive)所制定之各國個人資料保護法,對於「被遺忘之權利」並無著墨。故有些專家認為,為因應資訊科技之發展,應透過個人資料保護法制之修訂,確認此權利之存在,以避免模糊不清之情形。
歐盟發佈Amazon違反反托拉斯法之初步調查結果,並將對其電商業務展開第二輪調查歐盟執委會於2020年11月10日對Amazon發佈反托拉斯調查之初步調查結果,針對其2019年7月之首次調查提出調查意見書(Statement of Objections, SO),認定Amazon使用大量非公開賣家資料,減少自身作為零售商之競爭風險,相關可能違反歐盟運作條約(TFEU)第102條禁止濫用市場主導地位。 歐盟於2019年7月17日對Amazon展開首次反托拉斯調查。Amazon作為平台,具有雙重身分,第一個身分是作為零售商,在網站上銷售商品;第二個身分是作為平台商,提供第三方賣家銷售商品的市場。因此歐盟認為Amazon在平台上收集價格或活動統計資料,將調查Amazon和第三方賣家的標準協議中,是否允許Amazon分析賣家的買賣統計資料?以及第三方賣家使用「黃金購物車」(Buy Box)的機制為何? 歐盟執委會調查說明,Amazon作為平台,可以大量使用第三方賣家資料,例如訂購及發貨數量、賣家收入、報價次數、物流資料、賣家表現評價、消費者索賠資訊等。然而相關統計數字及資料進入Amazon業務自動化系統,使Amazon零售業務可以大量使用上述非公開資料,以調整自身產品零售報價和業務決策,降低自身作為零售商的市場競爭風險。 此外,歐盟執委會認為,Amazon的「黃金購物車」和「Prime label」機制,使平台上的第三方賣家必須選擇使用Amazon物流、倉儲和售後服務(Fulfillment by Amazon, FBA),才能取得平台的「黃金購物車」和「Prime label」標章,才可能增加產品搜尋曝光度、交易成功率,進而提高銷售量(據統計,Amazon平台超過八成之交易是透過黃金購物車完成)。因此導致消費者大多選擇購買曝光度高、也就是使用Amazon物流的賣家,形成賣家之間的不公平競爭。歐盟執委會後續將啟動第二輪調查,且未言明結束調查時間。
英國倫理機構針對海量資料(big data)之使用展開公眾諮詢調查納菲爾德生物倫理學理事會(Nuffield Council on Bioethics)成立於1991年,是一家英國的獨立慈善機構,致力於考察在生物與醫學領域新近研究發展中所可能牽涉的各項倫理議題。由該理事會所發表的報告極具影響力,往往成為官方在政策決策時之依據。 有鑑於近年big data與個人生物和健康資料的分析使用,在生物醫學研究中引起廣泛的爭議討論,此間雖然不乏學者論理著述,但對社會層面的實質影響卻較少實證調查研究。Nuffield Council on Bioethics於日前發布一項為期三個月(2013/10/17~2014/01/10)的生物暨健康資料之連結使用公眾諮詢調查計畫(The linking and use of biological and health data – Open consultation)。此項計畫之目的在於,瞭解更多有關資料連結與使用時所可能導致之傷害或可能的有利發展。並研析適當的治理模式和法律措施,使得民眾隱私權保護與相關研究之合法性得以兼顧,俾使更多人受益。 為執行此項計畫,Nuffield Council on Bioethics延攬健康照護資訊技術、資訊治理、健康研究、臨床診療、倫理和法律等領域專家組成計畫工作小組,由工作小組廣泛地蒐集來自民眾與各類型組織的觀點,探詢當民眾在面對個人的生物與健康資訊相互連結、分析時,民眾對當中所牽涉倫理議題之看法。該項公眾諮詢調查將針對以下重點進行: 1.生物醫學資料之特殊意義 2.新的隱私權議題 3.資料科學和資訊技術發展所造成之影響 4.在研究中使用已連結的生物醫學資料所可能帶來的影響 5.在醫學臨床上使用已連結的資料所可能帶來的影響 6.使用生物醫學研究和健康照護以外的生物醫學資料所可能帶來的影響 7.探討能夠在倫理上支持連結生物醫學資料的法律和治理機制 由於Nuffield Council on Bioethics被視為英國科學界的倫理監察員、政府智囊團,因此未來調查報告發布後對相關政府政策所可能產生的影響,當值得我們持續關注。
歐盟發布資料法案草案2022年2月23日,歐盟委員會(European Commission,以下簡稱委員會)公開資料法案草案(Data Act,以下簡稱草案),基於促進資料共享的目的,草案其中一個目標是使不同規模的企業、用戶在資料利用上有著更加平等的地位,內容包含確保用戶資料可攜性、打破資料存取限制、推動大型企業的資料共享,扶植微/小型企業等幾大方向。 以下就草案對大型企業要求的義務切入,說明草案所帶來的影響: 確保用戶訪問資料的權利: 基本資訊的告知,包含所蒐集資料性質以及訪問方式、使用資料的目的;用戶可在不同產品/服務提供者(以下簡稱提供者)之間切換,且提供者須有技術支援;提供者需要有合理技術,避免資料在未經授權被查閱。 對於提供者的限制: 提供者不得將所蒐集的資料用於取得用戶的經濟地位、資產、使用喜好;具守門人性質的企業不得採取獎勵措施以鼓勵用戶提供自其他提供者處所取得的資料;提供者提供資料可以收取補償,但必須以公平、合理、非歧視、透明的方式為之,需要提供補償計算方式與基礎。 對於微/小/中型企業的保護 提供者對於微/小型企業所收取的資料補償,不得超過提供資料所需的成本;提供者利用市場優勢,對於微/小/中型企業的不合理/公平的約定無效(如單方面免除一方的重大過失/故意行為的責任)。 該資料法案草案須經歐盟議會(European Parliament)通過後才會生效,目前草案規定只要有在歐盟提供物聯網產品或服務之企業,就須遵守草案內容規範,考量到網路服務可跨國提供服務,草案規範與進度仍值得國內企業關注。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」