「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
2011年7月29日美國聯邦巡迴上訴法院針對Myriad Genetics公司之單離去氧核糖核酸(isolated DNA)專利無效上訴案作出判決,認定人體基因具有可專利性。 本案緣起於Myriad Genetics公司利用單離DNA BRCA1及BRCA2兩項基因,發展出一套乳癌風險檢測技術,並成功取得7項專利。未料2009年時,美國公民自由聯盟(American Civil Liberties Union,ACLU)及美國公共專利基金會(Public Patent Foundation,PUBPAT)以「授予單離DNA專利權係違反專利法第101條規定」為由,向紐約南區聯邦地方法院提起確認專利無效之訴,並獲致勝訴判決後,全案便上訴至聯邦巡迴法院。 美國專利法第101條(35 U.S.C §101)雖規定:「任何人發明或發現新而有用的方法、設備、製品或物之組合,或新而有用的改良,皆可依本法所定條件取得專利。」但標的若屬自然產物(product of nature)者,則不應授予專利。因此,本案關鍵問題在於:單離DNA是否屬於自然產物? 針對此一問題,巡迴法院以1887年聯邦最高法院於Hartranft v. Wiegmann案中所闡明的「人為介入(human intervention)是否已賦予發明物與自然產物明顯不同的特質」原則為判斷標準,認定單離DNA雖取自於原生DNA(native DNA),但其經化學處理後可釋放出特定分子,已與人體內之原生DNA有顯著不同,故具有可專利性。此外,法院更指出,美國專利局(The US Patent and Trademark Office,USPTO)自80年代迄今已釋出40,000件以上與DNA分子相關之專利,其中有20%為人類基因,此種長年行政慣例即便有誤,亦應由國會加以變更,而非法院。 本案受矚目之處,在於Myriad公司上訴時,美國司法部即透過法庭之友建議書(friend of the court briefs),向巡迴法院表明其否認人類基因具有可專利性的立場,因此本案判決結果等同於對司法部見解之否決。美國生技業者則認為單離基因專利(isolated gene patent)是生技產業的基石,此判決結果符合專利局一貫的專利政策,而此政策正是過去催生美國生技產業的推手;惟外界預料本案極可能再上訴至聯邦最高法院,屆時將對美國生技產業造成何種影響,值得持續觀察。
點對點分享軟體導致資料外洩位於美國紐約州的一家知名藥廠2007年9月初宣佈其已確認大約有34000名員工的個人資料從某位員工的電腦外洩並遭人非法下載。 整起事件係導因於一位藥廠的員工自行於公司配發的筆記型電腦上安裝未經授權的檔案分享軟體,導致大約有34000名員工的個人資料在網路上被人下載流傳。至於因這起事件遭到外洩的個人機密資料包括員工姓名、社會福利號碼、出生日期、電話號碼和銀行信用狀況等等。 美國司法部門目前已針對這起資料外洩事件展開調查,並要求這家藥廠針對他們用來防止資料外洩的處理方式以及事件發生時的所有相關應變措施提出報告。根據調查,事實上早在今年7月10日這家藥廠即已發現這起大量個人資料外洩事件,卻遲至8月24日才以電子郵件通知資料外洩的被害人,反應時間長達六個星期之久,導致損害持續擴大。 由這起藥廠員工個人資料外洩事件正可顯示點對點(P2P)網路分享軟體確實潛藏著嚴重的資訊安全風險。透過此類軟體,網路駭客得以完整地掃描他人電腦硬碟中的檔案,讓不知情使用者的機密資料隨時處於高度的風險當中。 點對點檔案分享軟體(P2P),當初開發的目的在於集合眾人電腦之力,增加網路的連結數量,進而快速傳輸檔案。但以此作為入侵他人電腦的工具,甚至未經允許盜取他人的電腦中檔案資料等之新電腦犯罪型態,值得相關主管機關注意。
智慧聯網趨勢下的城鎮再進化-日本 ICT 社區總體營造 美國眾議院通過綠色化學研發法案美國眾議院本(9)月通過「2007年綠色化學研究發展法案」(The Green Chemistry Research and Development Act of 2007),其目的在要求總統建立「綠色化學研究發展計畫」(Green Chemistry Research and Development Program),統籌改善聯邦政府對於綠色化學研發、教育宣導及技術移轉等活動之資源投入,而綠色化學則是指那些依安全與有效生產程序製造高品質產品時、能減少使用或產生毒性化學物質之化學產品或製程技術。美國化學協會(American Chemical Society)讚許眾議院通過本法案是睿智的舉動,表示發展綠色化學最能證明經濟和環境得同時併進,發展綠色企業實務,改善藥學加工及本土營建產業以迎刃氣候變遷及能源危機等挑戰。 本法案並要求自明(2008)年起,編列經費由以下政府單位合作執行本計畫,即國家科學基金(National Science Foundation)、國家標準技術研究院(National Institute of Standards and Technology)、能源局(Department of Energy)及環保署(Environmental Protection Agency)。參議院在過去兩屆都通過類似的法案,尚等待參議院支持通過相同法案,以獲得生效。 為減低對石化原料的依賴、發展生物經濟,美國政府積極投入促進綠色科技、生質科技之研發活動,例如從農林廢棄物或副產品或其他來源開發再生性原物料供綠色化學使用。此外,美國政府亦資助建立了生質(biomass)能源及產品的網路圖書館(BioWeb);BioWeb所收錄的生質科技資訊、文獻,許多都是來自大學或國家實驗室著名研究人員,都會先經各領域專家進行嚴格的同儕審查(peer-review),再開給所有公眾瀏覽;BioWeb將會持續蒐羅各種基礎及應用科學知識,並擴充各種經濟及政策相關資訊。BioWeb的理想目標,是擴大規模成為最大最有價值的生質燃料、能源及產品公共資料庫。