合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/12/29)
引註此篇文章
你可能還會想看
日本對未來2020年至2030年間網路基礎設施之預測

  日本總務省未來網路基礎設施研究會(将来のネットワークインフラに関する研究会)4月份針對日本人工智慧(Artificial Intelligence 簡稱AI)、物聯網(Internet of Things 簡稱IoT)、資訊及通訊技術(Information and Communication Technologies 簡稱ICT)等技術相對應之網路基礎設施做作出預測。   在2020年以後第五代通信技術(5G)、物聯網系統、高畫質通訊等技術相繼成熟及普及化,相關業者勢必發展出多樣化、高度專業化使用者需求之網路結構,而手機聯網系統從單純的資訊傳遞網路,逐漸變成社會系統之神經網絡(社会システムの神経網)。   物聯網服務目前係由專用終端設備,並根據特定的應用目的建構,但在未來的網絡基礎設施,可能出現如橫向合作應用的通用平台,到2030年左右物聯網服務中M2M(Machine to Machine,機器和機器之間的通訊)的佔有率估計將達到10%。   人工智慧網路技術不僅僅是虛擬化層網路(仮想化レイヤのネットワーク)之維護和操作,更是物理層面的網路(物理レイヤのネットワーク)資源的管理,AI仍然只擔任協助之工具。其中,物理網絡(物理ネットワーク)和邏輯網絡(論理ネットワーク)應分別處理,邏輯網絡將型成多層次化,將變得難以檢測故障和調查原因,但在安全和可靠的網絡基礎設施下,經營者使用AI技術仍然是沒有問題的。   由於雲端技術、通訊技術之提昇,非電信營運者進入網路經營之商業型態逐漸產生,型成網路使用者、資料提供者之多樣性及複雜性。網路流量方面,在2030年左右將超出100Tbps核心網絡所需的傳輸容量,達到以往的光纖的容量限制,將透過無線電接入技術進一步發展,補足不足的光學寬頻。然而,人們對於網路更快的通信速度、安全性及可靠性的功能需求是沒有改變的。

美國欲修改HIPAA規則以促進「整合醫療照護」,並發表公眾意見徵詢書

  美國《健康保險可攜性及責任法》(HIPAA)係「保護個人電子醫療資訊隱私」的法規。其「受規範對象」(Covered Entity)為:使用電子方式傳送任何醫療資訊的醫療計畫、健康資訊處理機構(Health Care Clearinghouses)或醫療照護提供者。2018年12月14日,美國衛生及公共服務部(下稱:官方)發表〈公眾意見徵詢書:修改HIPAA規則以促進整合醫療照護〉(Request for Information on Modifying HIPAA Rules to Improve Coordinated Care),擬修正方向如下: (一)促進醫療行為、整合醫療照護、專案管理的資料分享   HIPAA原先僅允許受規範機關在醫療行為、支付、營運中揭露受保護健康資訊(PHI)。然而,這並不包含醫療照護或專案管理。官方傾向修法讓醫療照護或專案管理成為允許揭露PHI的情形。同時,也希望修法讓PHI的取得更具時效性,以利於病歷在受規範對象間的流通。 (二)推動親友參與解決當事人鴉片類藥物成癮和精神疾病問題   HIPAA允許受規範對象在特定條件下,向照護者(Caregiver)揭露PHI,包含緊急狀況,也包含嚴重的精神疾病。然而,許多受規範對象因為擔心違反HIPAA,而不願通知當事人的親友。這種狀況相當不利於整合醫療照護和專案管理的發展。目前官方尚未研擬出具體改善方法,希望外界可以提出方案。 (三)會計資料的揭露以存取報告代替   在當事人申請下,受規範對象或其商業夥伴應提供近六年內與PHI相關的會計資料。然而,許多受規範對象的系統無法分離出應提供給當事人的部分,只好提供整份會計資料,因而造成龐大負擔。官方擬修法,只提供當事人「存取報告」(Access Report),該報告會載明誰曾經存取電子紀錄。 (四)隱私權行為通知(Notice of Privacy Practices)   受規範對象在許多狀況下,需取得當事人隱私權行為通知的書面同意書,這次的修法希望可以減少書面同意,以利於受規範對象發展整合醫療照護。

中華人民共和國發布「電子認證服務管理辦法」

 中華人民共和國於今年(2005年)2月18日頒布「電子認證服務管理辦法」,該辦法乃是繼2004年8月頒布「中華人民共和國電子簽名法」後,針對電子認證服務產業所為之規範,目的在於使主管機關(中華人民共和國資訊產業部)對於憑證機構與電子認證服務之實施得有一明確之監督管理辦法(第4條),將於今年(2005年)4月1日正式施行。該辦法對於憑證機構之核可、電子認證服務之提供、暫停與終止、憑證應記載事項、憑證機構之審查義務、主管機關之監督管理辦法,以及相關罰責均予以明定。並於該法第41條設有過渡條款,明定憑證機構必須於今年(2005年)9月30日前取得電子認證服務許可,於今年(2005年)10月1日起,未取得許可者不得繼續從事電子認證服務,是以不採自願認可制。

智慧型運輸系統之頻譜規劃-參考美國及歐盟之規範

TOP