合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/06/17)
引註此篇文章
你可能還會想看
FDA發佈人工智慧/機器學習行動計畫

  美國食品藥物管理署(U.S. Food & Drug Administration, FDA)在2021年1月12日發布有關人工智慧醫療器材上市管理的「人工智慧/機器學習行動計畫」(Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan)。該行動計畫的制定背景係FDA認為上市後持續不斷更新演算法的機器學習醫療器材軟體(Software as Medical Device, SaMD),具有極高的診療潛力,將可有效改善醫療品質與病患福祉,因此自2019年以來,FDA嘗試提出新的上市後的監管框架構想,以突破現有醫療器材軟體需要「上市前鎖定演算法、上市後不得任意變更」的監管規定。   2019年4月,FDA發表了「使用人工智慧/機器學習演算法之醫療器材軟體變更之管理架構—討論文件」(Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine earning (AI/ML)-Based Software as a Medical Device (SaMD) - Discussion Paper and Request for Feedback)。此一諮詢性質的文件當中提出,將來廠商可在上市前審查階段提交「事先訂定之變更控制計畫」(pre-determined change control plan),闡明以下內容:(1)SaMD預先規範(SaMD Pre-Specification, SPS):包含此產品未來可能的變更類型(如:輸入資料、性能、適應症)、變更範圍;(2)演算法變更程序(Algorithm Change Protocol, ACP):包含變更對應之處理流程、風險控制措施,以及如何確保軟體變更後之安全及有效性。   根據「人工智慧/機器學習行動計畫」內容所述,「事先訂定之變更控制計畫」構想被多數(包含病患團體在內)的利害關係人肯認,並於相關諮詢會議當中提出完善的細部建言。FDA將根據收到的反饋意見,於2021年以前正式提出有關人工智慧/機器學習上市後監管的指引草案(Draft Guidance),並持續研究提高演算法透明度、避免演算法偏見的方法。

眾所矚目的LG對廣達權利金訴訟案有了初步的進展

  今年1月16日(週三),美國聯邦最高法院將韓國LG電子公司與台灣廣達(Quanta)電腦公司的訴訟案排入審判的程序之中,並預計今年六月底左右會有相關的判決結果產生。此案件之所於引人注目,主要是本案爭議的內容在於LG公司將其記憶體相關的專利權授權給美國Intel公司。而台灣廣達公司自Intel公司購買部分經LG授權的零組件,並用來製造筆記型電腦。   LG公司發現此情形之後,遂向美國法院控告廣達公司的行為侵害該公司的專利權,LG公司主張其授權並不包含對Intel公司以外的廠商,所以廣達公司的行為侵害該公司的權利;但廣達公司則主張Intel公司已取得授權,有權對外銷售,因此廣達公司的行為是合法的行為。   由於美國地方法院判決對LG有利,所以廣達公司不服因而提起上訴,本案也已經進入聯邦最高法院的訴訟程序,最後判決結果如何,將影響未來專利權擁有者與被授權者之間的關係,究竟收取權利金的範圍是否及於供應鏈或中下游的廠商等,成為眾人關注的焦點,也因此相關產業人士皆十分關注本案的發展。

美國擬制訂私人通聯記錄保護法案

  美國國會能源及商業委員會( Energy and Commerce Committee )於 2006 年 3 月 8 日 透過匿名表決的方式,通過「防止詐欺取得通聯記錄法」草案( Prevention of Fraudulent Access to Phone Records Act ),希望透過立法的方式保障消費者之隱私權,並要求電信公司加強保護消費者之通聯記錄。由於各黨派對本法案已有共識,故預計於近期排入國會議程後,順利完成立法。   根據美國國會議員 Joe Barton 表示,美國目前對於電話通聯記錄的取得並未進行規範,任何人均可輕易的透過網路購得相關資料。由於通聯記錄中往往包含許多個人之隱私或是敏感性資料,部分不肖之徒(如身份竊盜者、非法的個人資料販賣商)會藉此故意取得個人通聯記錄,以窺探隱私,甚或以此進行犯罪行為。   有鑑於此,美國計畫透過本法案,嚴格禁止以詐騙方式取得電話記錄的情形,並賦予聯邦公平交易委員會( Federal Trade Commission )有權對違反本法規定者進行民事處罰。此外,本法案亦要求電信業者必須符合本法規定之資料安全保護的要求,若違反本法之規定而造成損害,單一案件得處以最高 30 萬元之罰鍰,若為多重案件,則得處以 10 萬元以上 300 萬元以下之罰鍰。

日本經產省與國交省提出「自動駕駛推動發展與制度規劃」檢討報告

  日本經濟產業省於2016年11月14日召開第二次「自動駕駛商業檢討會」,邀請產官學研各界對於自動駕駛未來國際標準的動向以及諸如協調領域、社會接受度、制度和基礎建設等方面所涉議題,交換意見。   該檢討會首先注意到美國、歐洲以及韓國對於自動駕駛各式規則或指引制定的討論。在協調領域方面,檢討會指出:關於自動駕駛所需的地圖資訊,應由各汽車製造商協調,透過合作機制或規範來確保資訊與資金提供的公平性。   社會接受度方面,檢討會則提出建議考量是否需要針對不擅駕駛的高齡者或初學者,提供有效系統的必要性。在制度與基礎建設方面,檢討會則指出:以現狀而言,自動駕駛服務的商業永續性仍不明朗,必須持續進行實證試驗。   此外,為減少交通事故與因應少子化,與汽車的ICT革命等議題,由國土交通省於同年11月25日設立「自動駕駛戰略本部」(自動運転戦略本部),並於12月9日召開第一次會議。   該次會議討論的範圍包括:為實現無人駕駛的環境整備、自動駕駛技術的研發、普及與促進,以及為實現自動駕駛的實證與社會試驗。   會議結論則由國土交通大臣指示針對「車輛的技術基準」、「年長者事故對策」、「事故發生時的賠償規則」、「大卡車列隊行走」、「非平地道路間以車站為據點的自動駕駛服務」等議題速成立工作小組。

TOP