「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
英國作為歐洲金融重鎮,不論各行業均有蒐集、處理、利用歐盟會員國公民個人資料之可能,歐盟一般資料保護規則(General Data Protection Regulation,簡稱GDPR)作為歐盟資料保護之重要規則,英國企業初步應如何自我檢視組織內是否符合歐盟資料保護標準,英國資訊委員辦公室(Information Commissioner's Office, ICO)即扮演重要推手與協助角色。 英國ICO於2017年4月發布企業自行檢視是否符合GDPR之12步驟(Preparing for the General Data Protection Regulation(GDPR)-12 steps to take now),可供了解GDPR的輪廓與思考未來應如何因應: 認知(Awareness):認知GDPR帶來的改變,與未來將發生的問題與風險。 盤點資料種類(Information you hold):盤點目前持有個人資料,了解資料來源與傳輸流向,保留處理資料的紀錄。 檢視外部隱私政策(Communicating privacy information):重新檢視當前公告外部隱私政策,並及時對GDPR的施行擬定因應計畫。 當事人權利(Individuals'rights):檢視資料處理流程,確保已涵蓋GDPR賦予當事人如:告知權、接近權、更正權、刪除權、製給複本權、停止處理權、不受自動決策影響等相關權利。 處理客戶取得資料請求(Subject access requests):GDPR規定不能因為客戶提出取得資料請求而向其收費;限期於1個月內回覆客戶的請求;可對明顯無理或過度的請求加以拒絕或收費;如拒絕客戶請求則限期於1個月內須向其說明理由與救濟途徑等。 處理個人資料須立於合法理由(Lawful basis for processing personal data):可利用文書記錄與更新隱私聲明說明處理個人資料之合法理由。 當事人同意(Consent):重新檢視初時如何查找、紀錄與管理取得個人資料的同意,思考流程是否需要做出任何改變,如無法符合GDPR規定之標準,則須重新取得當事人同意。 未成年人(Children)保護:思考是否需要制定年齡驗證措施;對於未成年人保護,考慮資料處理活動是否需取得其父母或監護人的同意。 資料外洩(Data breaches):有關資料外洩的偵測、報告與調查,確保已制定適當處理流程。 資料保護設計與影響評估(Data Protection by Design and Data Protection Impact Assessments):GDPR使資料保護設計與影響評估明文化。 資料保護專責人員(Data Protection Officers):須指定資料保護專責人員,並思考該專責人員於組織中的角色與定位。 跨境傳輸(International):如執行業務需跨越數個歐盟會員國境域,企業則須衡量資料監管機關為何。
加拿大聯邦政府預計2018年於全國落實碳排放費用徵收加拿大總理賈斯汀.杜魯道(Justin Trudeau)於2016年10月提出一項改革方案,要求全國各省份或地區於2018年開始,須擇一實施碳稅(Carbon tax)制度或碳交易系統(Cap-and-Trade System):前者,聯邦政府將制定徵收下限,從2018年每噸10元,逐年提高10元,直至2022年每噸50元為止;至於碳交易系統,則須設立嚴格管控規範,以達聯邦政府實施碳稅制度所得減少碳排放量之預期值。同時,杜魯道更進一步表示,費用將交由各省區自行向排放者進行徵收,並可就其所得作自由運用,反之,倘若未確實執行該項政策者,聯邦政府則將強制介入實施。 事實上,綜觀國際間徵收碳稅制度,主要有兩種類型:一類為全國落實碳稅徵收,例如:荷蘭、丹麥、德國或南韓等,其中尚可再細分是否作為一獨立稅目進行徵收,前述荷蘭及丹麥二國,即直接設立碳稅進行徵收,至於德國與南韓,則是將碳排放作為能源稅之計算因子之一作收取;另一類為國內部分地區自行決定收取,如:美國加州地區及原先加拿大不列顛哥倫比亞省與魁北克省等。 至於未來觀察重點,應在於加拿大實施上述碳排放費用徵收政策後,勢必對於民生消費習慣具相當程度影響,諸如:暖氣、民生用電、交通工具燃料、公共運輸、食品、服裝或其他消費服務,預期均有相應之漲幅,再者,各省區之經濟政策及投資環境,亦可能有不小程度之衝擊,此兩處後續發展,均值得作持續性觀察。
澳洲法院判決BRCA1基因專利部分無效澳洲高等法院(澳洲的最高司法機關)在10月7日時做出重要判決,認為單純從人類基因體分離出來的基因序列,不足以作為專利的申請標的。本案的原告是一名69歲曾罹患乳癌的女士,他向法院起訴請求法院宣告Myriad 基因公司所擁有的BRCA1基因專利中部分的專利範圍(claim)無效。BRCA1基因的突變(mutation)或特定的表型被認為與乳癌及卵巢癌的發生機率有關。在先前的審級,法院都判決被告勝訴,但高等法院推翻了先前的見解,以7票贊成0票反對的比數\判決原告的上訴有理由,Myriad基因公司的專利無效。本案由首席法官連同其餘三位法官提出多數意見,另外有兩份協同意見。 本案的主要爭點在於系爭專利是否符合澳洲1990年專利法(Patents Act 1990)中,對專利應屬於一種「生產方式」(manner of manufacture)的規定。多數意見認為系爭的專利範圍只是BRCA1基因的序列,這些資訊並非由人類所「製造」,而僅是由人類所辨別。因此這無法被視為是一種生產的方式,不符合專利法的相關要求。若要將其視為生產方式,則需要進一步擴張生產方式的概念範圍,不適合由法院進行判斷。同時法院認為這個專利可能造成寒蟬效應,使得與BRCA1相關的分離技術變得過於昂貴或形成事實上的壟斷狀態,也與專利法希望促進發明的初衷不符。最後,法院在確認澳洲對於是否應承認此類專利並無國際法上的義務後,宣告此專利無效。 澳洲的學界對此判決表示歡迎,認為此判決將使醫療人員執行職務時免於侵犯智慧財產權的恐懼。但澳洲的生技產業則認為這個判決可能會打擊相關的研究,造成負面影響。澳洲法院的判決與美國先前的判決見解相當類似,同時該判決也可能對於其他國家的類似案件發生影響。例如在加拿大的一個與罕見心臟疾病基因有關的官司,就很可能會受到本判決的影響也宣布該基因專利無效。