合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=0&tp=1 (最後瀏覽日:2025/05/21)
引註此篇文章
你可能還會想看
歐盟提出先進製造先進歐洲報告與行動方針

FCC將電力線寬頻上網(BPL, Broadband over Power Line)服務分類為資訊服務

  FCC經過討論與投票,正式發佈命令將電力線寬頻上網服務分類為跨州資訊服務(interstate information service),而非電信服務,其他寬頻上網科技包括DSL、有線電纜線數據機寬頻上網亦被FCC分類為資訊服務。   過去幾年來,FCC一直大力支持電力線寬頻上網服務,期望電力線寬頻上網服務可以進入寬頻服務市場,與DSL和有線電視纜線數據機寬頻上網服務競爭,以增加寬頻服務市場之競爭,提高美國之寬頻普及率。而就此次所發佈之命令,FCC認為,將電力線寬頻上網分類為資訊服務將可使電力線寬頻上網服務受到較低的管制,有助於達成隨時隨地提供所有美國民眾寬頻接取之目標。其次,FCC在數位匯流時代之管制乃是期望能對於各種不同技術之寬頻接取平台給予一致的管制措施,並且對於相同之服務採取相同的管制方式。基於上述原因,FCC此次將電力線寬頻上網分類為資訊服務並不讓人感到意外。   FCC主席Kevin J. Martin進一步在其聲明中表示,雖然目前電力線寬頻上網人口並不多,然在2005年其成長率卻將近200%,顯見電力線寬頻上網服務之市場潛力不容忽視,將可幫助達成美國總統定下於2007年底前隨時隨地提供全國民眾寬頻網路接取之目標。

日本政府將於東京都及愛知縣成立「自駕車實證一站式中心」

  日本政府於2017年9月4日所召開之國家戰略特區區域會議(下稱戰略區域會議),決定由政府、東京都及愛知縣,共同成立「自駕車實證一站式中心」,協助企業及大學之自駕車相關實證研究。在自動駕駛實驗開始前,中心接受道路交通法等各程序相關諮詢,必要時可將相關程序以其他方式置換,將複數程序整合為一,推動相關實驗。   戰略區域會議並決定將窗口設置於東京都及愛知縣,欲進行實驗之企業可至前述窗口諮詢,東京都及愛知縣應與相關省廳及所管轄之警察、交通部門進行協調,並將所需之資訊彙整後回覆予企業,如此一來,企業可減輕實驗前繁瑣程序所帶來之負擔,進而降低啟動實驗之門檻。   東京都小池百合子知事於會後向記者們表示「自駕系統於汽車產業中,已是國家間之競爭」,且東京都將致力於「沙盒特區」體制之推動,於必要時可暫時停止相關現行法規之限制。愛知縣大村秀章知事則期待「透過實證實驗累積技術,促使愛知縣能維持引領世界汽車產業聚集地之地位」。   針對上述特區的設置,未來實際落實情況以及法規排除作法與範圍,值得我國持續投入關注。

FDA發佈人工智慧/機器學習行動計畫

  美國食品藥物管理署(U.S. Food & Drug Administration, FDA)在2021年1月12日發布有關人工智慧醫療器材上市管理的「人工智慧/機器學習行動計畫」(Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan)。該行動計畫的制定背景係FDA認為上市後持續不斷更新演算法的機器學習醫療器材軟體(Software as Medical Device, SaMD),具有極高的診療潛力,將可有效改善醫療品質與病患福祉,因此自2019年以來,FDA嘗試提出新的上市後的監管框架構想,以突破現有醫療器材軟體需要「上市前鎖定演算法、上市後不得任意變更」的監管規定。   2019年4月,FDA發表了「使用人工智慧/機器學習演算法之醫療器材軟體變更之管理架構—討論文件」(Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine earning (AI/ML)-Based Software as a Medical Device (SaMD) - Discussion Paper and Request for Feedback)。此一諮詢性質的文件當中提出,將來廠商可在上市前審查階段提交「事先訂定之變更控制計畫」(pre-determined change control plan),闡明以下內容:(1)SaMD預先規範(SaMD Pre-Specification, SPS):包含此產品未來可能的變更類型(如:輸入資料、性能、適應症)、變更範圍;(2)演算法變更程序(Algorithm Change Protocol, ACP):包含變更對應之處理流程、風險控制措施,以及如何確保軟體變更後之安全及有效性。   根據「人工智慧/機器學習行動計畫」內容所述,「事先訂定之變更控制計畫」構想被多數(包含病患團體在內)的利害關係人肯認,並於相關諮詢會議當中提出完善的細部建言。FDA將根據收到的反饋意見,於2021年以前正式提出有關人工智慧/機器學習上市後監管的指引草案(Draft Guidance),並持續研究提高演算法透明度、避免演算法偏見的方法。

TOP