合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw//article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/04/11)
引註此篇文章
你可能還會想看
英國高等法院裁定ISP 需打擊仿冒品網站

  英國高等法院(High Court)於2014年10月17日裁定網路服務提供者(Internet Service Provider, ISP)需協助業者打擊仿冒商品。全球第二大奢侈品集團Richemont Group於英國控告英國五大網路服務提供者即BSkyB、British Telecom、EE、TalkTalk和VirginMedia,要求網路服務提供者封鎖所有銷售該集團仿冒品的網站,避免網路使用者接觸到這些商標仿冒侵權的違法網站。   Richemont Group為Cartier、Piaget、Montblanc等精品品牌的母公司,其集團發言人表示此次的判決為打擊仿冒品網購業者邁前了一大步,對於法院認可防止涉及仿冒品的商標侵權有利於公眾利益感到滿意。   在此判決出爐前的三年以來,只有著作權人可就著作權侵權為由要求網路服務提供者封鎖仿冒品網站,如今首次將此權利延伸到商標權人手上,針對販售侵害商標權仿冒品的網站加以封鎖。   Arty Rajendra律師表示,網際網路讓販售仿冒品的非法網站能夠匿名並且隱藏位置,要封鎖販售仿冒品的網站是一件十分困難的事。因此,停止為這些網站帶來流量將如同停止供給他們氧氣,而網路服務提供者剛好在這環節中扮演非常重要的角色,因為他們可以限制對於這些非法網站的接觸(access)。   可預見的是,在此判決後,將會有越來越多商標權人要求網路服務提供者封鎖銷售仿冒品的網站。

英國取法美國國防先進研發署研發補助機制,提出先進研究發明署法案

  英國商業、能源暨產業策略部(Department for Business, Energy and Industrial Strategy, BEIS)於2021年3月2日向英國國會提交「先進研究發明署法案」(The Advanced Research and Invention Agency Bill),作為英國政府設立獨立研究機構「先進研究發明署」(Advanced Research and Invention Agency, ARIA)的法源依據,用以補助高風險、高報酬之前瞻科學與技術研究,將仍處於想像階段的新技術、發現、產品或服務化為現實。   本法案授予ARIA高度的自主性,使ARIA得以招攬世界頂尖的科學家與研究人員,規劃最具前瞻性與發展潛力的研究領域提供研發補助;同時也給予相較於其他研究機構更多容許失敗的彈性,並明確指出失敗是前瞻科學研究必然經歷的過程。ARIA對於研發資金的運用將因而獲得充分的自主性與彈性,包含對於研究計畫提供快速啟動基金與其他獎項做為激勵措施,或是依據研發進展即時決策是否延續或中止。   ARIA取法自美國國防先進研發署(Defense Advanced Research Projects Agency, DARPA),美國DARPA在網際網路、GPS等技術研發上的成就,直到近期支持針對COVID-19的mRNA疫苗及抗體療法從而取得重大進展,在在顯示了DARPA模式的可行性與重大影響力,而其成功的關鍵在於高度的自主性、靈活性以及最少的行政程序障礙,因此法案將允許ARIA不受政府採購相關限制、並免於政府資訊公開的義務,以減少行政程序對於研發進程的影響。但ARIA每年度仍須向國家審計署提供年度會計報告以作為政府對其最低限度的監督手段,除此之外,商業部長將有權中止與敵對勢力對象的研發合作或結束特定的研究計畫。

ZeniMax控Oculus Rift VR竊取技術經陪審團判決應賠償美金5億元

  電子遊戲龍頭ZeniMax於2014年起訴虛擬實境公司Oculus VR,稱Oculus創辦人Palmer Luckey為改善初代虛擬實境體驗機「Rift」提供原型予在ZeniMax任職的John Carmack,嗣Carmack在該機器增加ZeniMax所有之虛擬實境專用關鍵軟體,ZeniMax就Luckey取得該公司軟體之內容與Luckey簽立保密協定。其後Luckey為募集Oculus資金,未經ZeniMax授權及參與,開始展示含有ZeniMax專有軟體之「Rift」,最後Facebook收購Oculus。   ZeniMax以Oculus、Luckey、Brendan Iribe(Oculus另一創辦人)、Carmack為被告,主張其等盜用營業秘密、侵害著作權、違反保密協定、不公平競爭、不當得利、商標侵權(包括未經許可使用以及錯誤指示商品來源),並列Facebook為共同被告主張其於收購Oculus即知情,連帶給付20億美元之損害賠償及40億美元之懲罰性賠償。本訴訟於2017年2月1日經陪審團認定Oculus違反保密協定、侵害著作權、錯誤指示商品來源侵害商標等共計賠償3億美元,Luckey及Iribe因錯誤指示侵害商標共計賠償2億美元。   以本案來看,Oculus及其創辦人最主要是未經ZeniMax同意而公開使用ZeniMax的程式碼且宣稱為其公司產出,關於這個部分公司未來在有運用他人公司技術之情形宜透過協商,以共同發表之方式避免侵害創作公司之權利;另創作公司雖未公開技術,然可透過保密協定使營業秘密獲得完善的保障;至於Facebook的部分更凸顯公司於併購前尤應強化盡職查核(Due Diligence),以免訟累。 本文同步刊登於TIPS網站(https://www.tips.org.tw)」

英國皇家內科醫學院等三個團體聯合發布基因檢測醫療之指引建議書

  近年隨基因檢測技術成熟及成本下降的影響,基於醫療診斷或照護目的,而對於血液、其他體液、細胞或DNA所進行之基因檢測行為已有逐漸增多的趨勢,惟基因資訊使用本身往往容易觸及倫理、道德或法律層面的爭議,導致專業醫療人員在實際為檢測時容易產生法規遵循上的困難;因此,若能有明確的程序或標準可供依循,將能大幅增進基因檢測技術的商業運用價值。   1. 有鑑於此,三個英國醫療團體-英國皇家內科醫學院(Royal College of Physicians)、英國皇家病理科醫學院(Royal College of Pathologists)及英國人類遺傳協會(British Society for Human Genetics)於今(2011)年9月聯合公布了一份『診療性基因使用行為的同意及秘密性:基因檢測及基因資訊的分享指引』報告書(Consent and confidentiality in clinical genetic practice:Guidance on genetic testing and sharing genetic information)。該建議書之主要目的即在於指引醫療人員在使用基因資料及樣本時,應如何遵循相關的法律規範,包括1998年資料保護法(the Data Protection Act of 1998)及人類組織法(the Human Tissue Act)等;內容上則涵蓋病患同意、基因醫療行為、家族史與醫療資訊的秘密性,以及當病患所提供之基因樣本可能作為研究用途時,應如何告知等事項。   建議書中特別強調當病患選擇接受基因檢測以獲得更好的診療建議時,基因資訊也開始對病患個人及其家族成員帶來的風險。基此,該報告對基因檢測行為提出三項主要建議:1. 基因檢測所得到的家族史及診斷資訊只有在其他家族成員出現健康照護(healthcare)需求時,才能進行共享,且必須在醫療人員不違反保密義務的前提下進行。2. 醫療人員應當告知病患包括基因調查對其近親屬的潛在好處、部分基因訊息可能會提供給家族親屬、基因檢測可能會得到不確定或非預期的發現、其所提供之樣本及基因資訊將如何被運用,以及該樣本若對於該類型之檢測具有相當重要性時,其檢測結果可能會被收錄於國家資料庫以作為未來醫療研究之用。3. 由於醫療干預行為可能會導致基因診斷(genetic diagnoses)結果的改變,所以應該由病患本人或專業醫師直接告知其親屬,此誤差所可能導致的遺傳風險(例如血友病患者的基因診斷結果發生誤差,可能導致其近親屬生下患有血友病的下一代)。   目前基因檢測技術雖已趨向商業化及普及化發展,但由於基因訊息一般被界定為個人隱私資訊,因此在使用、分享及儲存上有相當之限制規範,並造成醫療人員遵循上的難度。而英國皇家內科醫學院等三個醫療團體所公佈的這份指引建議書,在內容上聚焦於告知病患的程序及病患的同意,同時擬定明確的流程圖及同意表格供各醫療人員參考使用,相信對於未來英國基因檢測技術的普及化會有相當正面之幫助。

TOP