合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/04/19)
引註此篇文章
你可能還會想看
美國EPA計劃創建三大生質能源研究中心

  美國能源局(EPA)宣布,將創建三個生質能源研究中心(bioenergy centers),以研發將植物轉化為燃料的技術方法。此舉乃是布希總統作出美國在未來十年內將降低20%的石油用量之政策宣布後,第一個採取具體配套行動的聯邦政府機關。   生質能源研究中心設立的宗旨是希望在未來五年內能夠以先進技術,成功開發生質能源的產品上市。根據EPA的對外公告資料,三大生質能源研究中心將以公司組織的形式運作,每一個研究中心總投入資本將高達1億2千5百萬美元,三大研究中心分別是位在田納西州Oak Ridge、威斯康辛州的Madison以及加州Berkeley附近,這些區域原本就是重要的研究重鎮,匯聚許多的大學、國家實驗室以及私人企業,形成產業聚落,預計三大生質能源研究中心將自2009年9月1日起的預算年度開始運作。   EPA希望藉由研究中心的聚落效應,集中資源協助這些研究中心從自然界中破壞木質素(lignin)的微生物出發,找出植物的確切細胞膜質(cellulose)之所在。細胞膜質或稱纖維素,是轉化成為乙醇、液態燃料等能源的重要來源物質,因此這些生物運轉機制的瞭解與掌握,乃是開發生物能源技術的基礎。   值得注意的是,各國致力於發展生物燃料以替代汽油的政策,已經使得某些兼具多種用途的作物價格持續攀升,此可由國際期貨市場價格獲得印證。為避免生物燃料的發展反而造成食用作物的搶奪大戰,影響作物市場價格,研究中心也將致力於尋找可以製造較易處理的木質素的新作物種類。

Dell與Alcatel-Lucent在東德州“線上買賣”(Online Buying)專利侵權訴訟,Dell敗訴

  美國東德州聯邦地方法院的法官於今年2月5日,對Dell指稱Alcatel-Lucent侵害其所有之兩項線上管理顧客及產品資料的電腦製造方法專利乙案作出判決。判決指出,因為Dell無法向陪審團證明Alcatel-Lucent有引誘或侵害Dell專利權的事實,而Alcatel-Lucent亦無法以明確且具說服力的證據證明系爭案件中Dell所有的專利為無效,所以本案亦無任何損害賠償問題。Dell於訴訟中所主張的兩項專利權,主要為關於加速促進顧客線上下單購物的技術,其美國專利權號碼分別為6,182,275及6,038,597。關於本判決結果,原告Dell方面尚未表示是否會對本判決提起上訴,然被告法商Alcatel-Lucent則對此判決結果表示則肯定。   Alcatel-Lucent與Dell之間的專利訴訟並未就此結束, Alcatel-Lucent在加州之前起訴Dell, Gateway及Microsoft專利侵權之訴訟,主要為影像解碼及選擇影像播放模式技術之專利,專利號碼分別為4,958,226; 4,383,272; 4,763,356;5,347,295及 4,439,759.,該專利訴訟自2003年開始在加州纏訴。Alcatel-Lucent主張被告三家公司應給付專利侵權之損害賠償一共超過美金30億的天價,本案業已上訴,審理的法院已訂期將於近日展開審判。然而,由於Gateway去年被宏碁(Acer)併購後,已積極地與Alcatel-Lucent進行談判,雙方並於今年2月中達到庭外和解的協議。所以,Dell在東德州敗訴的消息,是否會影響其未來在加州是否會繼續訴訟或尋求庭外和解的態度,將是市場人士專注的焦點。

美國FTC認為政府擴大拜杜法權介入權適用範圍將引發專利叢林危機

美國聯邦貿易委員會(Federal Trade Commission, FTC)於2024年2月6日針對「介入權指引草案」(Draft Interagency Guidance Framework for Considering the Exercise of March-In Rights)提交意見書。介入權指引草案由美國國家標準技術研究院(National Institute of Standards and Technology, NIST)2023年12月8日公布於聯邦公報(Federal Register),旨在訂立政府機關發動《拜杜法》(Bayh-Dole Act)第203條「介入權」(March-in rights)之判斷流程與標準,以確保介入權發動具一致性。根據草案內容,當受政府補助之研發成果若經商業運用後被以「不合理價格」販售,而未滿足民眾健康與安全需求時,提供補助之政府機關應適時介入。 然而,介入權指引草案將「價格合理性」納入介入權發動要件,被美國各界質疑係為達成拜登政府打擊藥價之政策目的,亦即透過擴大、強化介入權之方式,將「受政府補助之專利藥」強制再授權專利,以降低藥品價格。 FTC於意見書中亦對此爭議提出看法,認為美國人民就處方藥須支付不斷上漲之昂貴價格,雖然賦予各機關審查「價格合理性」,將使得介入權發動更為廣泛且靈活,並得以監督藥品價格。惟擴大、強化介入權仍有隱患,尤其製藥公司恐為了保護其藥品專利,因此擴大申請專利權範圍導致專利叢林(patent thicket)現象產生,例如除將活性成分申請專利外,另將製程、劑型亦申請專利,此為未來各政府機關應該共同解決之問題。

美國聯邦通訊傳播委員會徵詢智慧電網技術施行意見

  美國參眾兩院於2009年「美國經濟復甦與再投資法」(American Recovery and Reinvestment Act of 2009)─即「振興經濟方案」─要求聯邦通訊傳播委員會(Federal Communications Commission, FCC) 在國家寬頻發展計畫中,須使用寬頻建設及服務,促進節能減碳與能源自主要求。智慧電網(Smart Grid)被認為係符合此要求的新技術。FCC遂公開徵求有關此一技術對國家寬頻發展計畫要求事項更進一步的評論與建言: 1. 使用公私網絡的智慧電網是否適合發展於通訊技術; 2. 何種通訊技術與網絡可符合且最常用於智慧電網科技; 3. 既有商用通訊網絡是否合於智慧電網的運用; 4. 在一般與緊急狀況下,商用無線通訊網絡得否可靠地藉由智慧電網傳輸資料; 5. 現有且合適於發展智慧電網的電力設備於全美的普及率為何; 7. 智慧電網對已發照釋出之頻譜需求為何; 8. 智慧電網使用毋須核照之頻譜是否遭遇介面(interface)上的問題; 9. 是否需要釋出額外或未使用的頻譜?原因為何; 10.如何確保消費者能即時獲知實際能源減耗數據與支付價額; 11.設備、技術提供者與消費者如何相互連結相關家電用品與網路; 12.何種資訊會在一類、二類與電力供應者間被擷取; 13.管理能源之家用網路區域(Home Area networks)在智慧電網中的角色為何?   FCC對智慧電網所蒐集的資料與意見,將對欲發展節能減碳政策的台灣,有相當幫助,值得持續關注。

TOP