合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?no=55&tp=5&i=180&d=8532 (最後瀏覽日:2024/04/25)
引註此篇文章
你可能還會想看
歐盟委員會發佈新「電視無疆界指令」(Television without Frontiers)

  歐盟委員會在2007年03月09日,發佈了具現代化的統一文案:「電視無疆界指令」。在經過歐盟議會以及首長會議一讀後,委員會對於歐洲相關視聽的未來法律框架,有了廣泛的共識。   加速1989年電視無疆界指令的現代化,是2005年12月13日由委員會提出,目的是希能夠幫助歐洲視聽產業能更具競爭力,也期望透過對傳統電視廣播業者更彈性的規範,使其能夠因應技術的發展,接受新的技術,也能因應市場變化以及閱聽者收視習慣的改變,進一步創造新興的視聽媒體服務(數位電視中的視聽服務、行動電視、隨選視訊服務)。   除了新的規範內容,新指令還重申了自1989以來,一直為歐洲視聽政策核心的共同政策目標。這些目標包括尊重多元文化、要求各會員國採取適當措施來保護未成年人、媒體多元化、打擊種族和宗教仇恨等。此外,也明確鼓勵業者自律以及國家與非國家間的相互約束。整個新指令的文案目前正進行二讀中。

2011年個人資料外洩事件與前年相比減少128件,總數為1551件-預測賠償金額比前年擴大1.5倍

  日本2011年個人資料外洩事件及事故的件數比前年減少為1551件,但洩漏的個人資料筆數卻超過前年一成以上,約有600萬筆個人資料外洩。從數字來看預估的賠償金額是超過1900億日幣。   日本網路資安協會(JNSA)與資訊安全大學研究所的原田研究室及廣松研究室共同針對報紙集網路媒體所報導的個人資料外洩相關事件及事故所進行的調查所做的結論。   新力集團旗下的海外公司雖然發生合計超過1億筆的大規模個人資料外洩的意外,但此一事故並無法明確判別是否屬於個人資料保護法的適用範圍,因此從今年的調查對象裡排除。   在2011年發生的資料外洩事件有1551件,比起前年的1679件減少128件,大約跟2009年所發生的個人資料外洩差不多水準。外洩的個人資料筆數總計約628萬4363筆,與前年相較約增加70萬筆。平均1件約洩漏4238筆個人資料。   將事故原因以件數為基礎來分析,可以發現「操作錯誤」佔全體的34.8%為第一位,其次是「管理過失」佔32%,再接下來是「遺失、忘記帶走」佔13.7%。但以筆數來看,值得注意的是「管理過失」佔37.7%最多,但「操作錯誤」就僅有佔2.3%的少數。   再以佔全體事件件數5%的「違法攜出」就佔了全體筆數的26.9%;在佔全體件數僅有1.2%的「違法存取」卻在筆數佔了20.9%,可以看到平均每一件的受害筆數有開始膨脹的傾向。   再者從發生外洩原因的儲存媒體來看,紙本佔了以件數計算的68.7%的大多數,以USB記憶體為首的外接式記憶體佔了10.1%;但以筆數計算的話,外接式記憶體佔了59.1%、網路佔了25.5%的不同的發生傾向。   從大規模意外來看,金融機關與保險業界是最值得注意,前10件裡佔了7件。從發生原因來看,「違法攜出」及「內部犯罪」所造成的事故10件中有4件,其次是「管理過失」。規模最大的是山陰合同銀行的受委託人將業務所需的165萬7131件個人資料攜出的事故。   依據2011年所發生的事件及事故的預估賠償額是1899億7379萬日幣。遠超過前年的1215億7600萬日幣。平均一起事件預估損害賠償金額有1億2810萬日幣,每人平均預估賠償金額是4萬8533日幣。

英國將修法廢除非營利團體合理使用錄音著作相關規定

  英國的1988年智慧財產權法(The Copyright, Designs and Patents Act of 1988)長久以來,對於慈善及非營利團體在公開場合或活動中播放音樂,一直給予合理使用的空間。然當相關團體受惠於此一規定時,創作人跟表演人卻不樂見此情形。因此,英國主管機關針對此一合理使用規範,在2008年對相關團體進行了意見徵詢。   在2008年10底截止的意見徵詢中,對於改變錄音著作與表演人權利的公開演播合理使用空間,提供了下列三個選項: 一、 完全廢除此一合理使用空間 二、 縮小適用的團體範疇 三、 廢除合理使用空間,但權利人只能以對雙方都公平的費率收取權利金   近日,英國政府宣布根據前述的意見徵詢結果,將廢除慈善與非營利團體的合理使用規定,從2010年4月開始這些團體將必須負擔一個固定的年費,才能在活動或公開場合中使用音樂,但截至目前為止,使用的費率為何尚未確定,但主管機關表示,希望一年不超過100英鎊。   主管機關接下來將對費率部分開始徵詢意見,對於1988年智慧財產權法也預期會進行修正,並於2010年4月開始落實相關規範。這樣的改變對於慈善團體而言固然感到失望,相關團體也以未來在活動場合中,不播放音樂或不付權利金來做為要脅,但整體發展仍有待後續觀察。

英國猶疑應否開放人獸混合細胞之胚胎幹細胞研究

  英國之胚胎幹細胞研究活動,係根據「1990年人類受精與胚胎學法」(Human Fertilisation and Embryology Act 1990,HF&E Act)和「2001年人類受精與胚胎學規則」(Human Fertilisation and Embryology (Research Purposes) Regulations 2001,Research Purposes Regulations)之規定,授權由「人類受精與胚胎學管理局」(Human Fertilisation and Embryology Authority,HFEA)依法管理。   新堡大學東北英格蘭幹細胞中心(North East England Stem Cell Institute)Lyle Armstrong博士,在去年底向HFEA申請一項涉及混合人類與動物細胞製造胚胎幹細胞之研究許可;其計劃利用細胞核轉置技術,將牛的卵子細胞核取出,植入人類體細胞核,並刺激其分裂形成胚囊或早期複製胚胎,用以研究培養病患所需身體組織之技術。過去HFEA從未曾核准過此類研究,僅核准過2件利用細胞核轉置技術和單性活化卵母細胞製造胚胎幹細胞株作為醫學研究之申請。此研究申請訊息一流出,即引起保守團體嘩然及指責,要求英國政府應盡速立法,禁止製造人獸混合細胞之實驗活動。面對各界抗議聲浪,HFEA表示,會暫緩此申請案。   事實上,去年12月英國健康部提出了一篇報告-「人工生殖及胚胎學法之檢討」(Review of the Human Fertilisation and Embryology Act),建議國會應儘速立法規範人類動物細胞混合研究。而英國政府與人民究竟能否接受混合人類動物遺傳細胞研究之合法性、合道德性,則為未來立法動向之重要指標。

TOP