合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=57&tp=5 (最後瀏覽日:2025/04/04)
引註此篇文章
你可能還會想看
歐盟佐審官建議修正與加拿大之「航空乘客個人資料共享協議(草案)」,以維護人權

  歐洲聯盟法院(CJEU)佐審官 (Advocate General ) Paolo Mengozzi 於今年(2016) 9月8日提出一份不具拘束力之「航空乘客個人資料共享協議(草案)」( European Union on the transfer and processing of passenger name record data (“PNR Agreement”)) 法律意見,認為協議應遵守歐盟憲章有關人權之基本原則。此份法律意見為歐洲聯盟法院首次就國際協議草案,檢視與歐盟憲章有關規範之一致性。 [背景]   PNR協議草案於2010年5月開始協商,2014年6月25日簽署。主要以反恐為目的讓歐盟與加拿大交換航空乘客資訊(包括旅客姓名、旅行日期、行程記錄、機票、聯繫資訊、旅行社等其他有關資訊)。除加拿大之外,歐盟亦與美國、澳洲簽有類似資料共享協議。關注到PNR協議有關隱私、人權之議題,歐盟議會將PNR協議提至歐洲聯盟法院審議。 [法律意見]   佐審官認為,協議同意在特定條件下就限定目標之乘客蒐集其敏感資訊,未違反歐盟憲章;然PNR協議草案仍有部分內容違反歐盟憲章:即草案允許歐盟、加拿大主管機關使用乘客姓名等數據,已逾越預防恐怖組織犯罪和跨國犯罪的必要範圍。   因歐洲聯盟法院去年已廢除歐盟與美國之間之安全港(Safe Harbor)法案,隨後雖起草隱私保護協議(Privacy Shield),但仍有意見質疑隱私保護之完整性。PNR協議草案法律意見之提出,可窺歐盟關於隱私保護之立場。

國際推動綠色科技發展重要法制政策研析

美國最高法院判決診斷方法不具可專利性

  美國最高法院近日在Mayo Collaborative Services與Prometheus Laboratories一案中判決2項與免疫疾病有關的診斷方法專利無效,業界擔憂該判決將對處於新興發展階段的個人化醫療領域的研發投入與創新有著負面影響。   本案源於Prometheus所擁有的在不同劑量下thiopurine藥物代謝情況的診斷方法專利(由於病患的藥物代謝率不同,因此醫生在判斷特定病患的藥物劑量高低有相當的困難度),Mayo購買使用Prometheus的診斷方法後, 2004年Mayo開始對外販售自己的診斷方法。Prometheus主張Mayo侵害其專利,聯邦地方法院認為該專利建構於自然法則與現象上,因此不具可專利性,但聯邦巡迴上訴法院則有不同的看法,本案因此一路爭執至最高法院。   對於自然法則、現象以及抽象的概念,基於其作為科技發展的基礎工具,為避免妨礙創新發展,一直以來法院都持不具可專利性的看法。在相關的前案中,唯有在自然法則之外,包含創新概念的元素,才能超越自然法則本身而成為專利。本案中最高法院表示,本案專利方法步驟,不符合前述基於創新概念而授與專利的條件,且該方法步驟為該領域人所熟知、常用,授與專利將導致既有的自然法則被不當的受限而影響後續進一步的發現。   評論者表示儘管該判決並未提供一個清楚的判斷標準,但並不因此讓下級法院對這類的個人化醫療專利全數否決。然本案對於可專利性客體的判斷,影響將不僅止於生命科學,進而包括所有涉及可專利性客體的軟體、商業方法類型專利,後續影響值得持續關注。

美國寬頻業者推動網路傳輸流量上限管理方案

  有鑑於網路使用人口中,不同使用者族群所消耗的傳輸量比例相差懸殊,美國寬頻業者於近來積極推動網路傳輸流量上限管理計畫,且繼Comcast與Time Warner等業者的初步嘗試後,美國最重要的網路服務提供者—AT&T,也宣布將開始進行客戶網路流量管理計畫。   這項嘗試計畫將以限制新的DSL用戶為起點,其所規定的每月下載與上傳流量上限,係依據客戶申請的寬頻方案有所不同,分別被限制在20G至150G (gigabytes)不定。超過的部分則將持續向使用者警告兩個月後,依每超過1G加收一美元的費用,向使用者收費。   至於提出此項管理方案的理由,據AT&T發言人表示,是因為網路頻寬的使用分佈過於不平均,高達46%的頻寬是5%的使用者在使用,而21%的頻寬更是只為極少數的1%用戶所使用,顯然太過集中。根據AT&T的傳輸上限規定,購買傳輸速度3M (megabits)的寬頻使用者,日後每月的傳輸量上限是60G,這大約等於是下載30部DVD畫質電影的傳輸量。   不過,也有分析師指出,現階段欲全面滿足使用者的頻寬需求,對網路服務提供者而言尚非極大的財務負擔,且管制流量上限的作法,可能對既有以「吃到飽」費率方案為基礎,所發展出來的網路應用服務模式,造成極大的衝擊,此亦也可能引發後續有關網路中立性的政策辯論。

TOP