合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/02/13)
引註此篇文章
你可能還會想看
日本政府公布「日本再興戰略2016 (草案) 」,並以實現第四次工業革命為主軸

  日本首相官邸之「日本經濟再生本部」於2016年5月19日召開第27次「產業競爭力會議」,並於該會議上提出「日本再興戰略2016(草案)」進行討論。再興戰略以實現「第四次工業革命」為主軸,透過活用IoT、巨量資料、人工智慧(AI)、機器人等技術,目標在2020年創造出30兆日圓的市場附加價值。為了推動相關政策,今年夏天將會成立具備統整指揮機能之「第四次工業革命官民會議」,該會議下並設置「人工智慧技術戰略會議」、「第四次工業革命 人才育成推動會議(暫定名稱)」,以及「機器人革命實現會議」。   「日本再興戰略2016(草案)」,特別對於製造業相關之議題提出討論。再興戰略指出,日本相較他國,雖然在網路空間的「虛擬資料(バーチャルデータ)」平台方面發展較晚,然而在健康資料、交通資料、工廠設備運轉等「即時資料(リアルデータ)」領域有潛在的優勢,因此為了讓日本的企業超越目前的框架,將以建構取得「即時資料」之平台為目標。綜整「日本再興戰略2016(草案)」具體重要政策方面如述,包括: (1)日本政府認為,第四次工業革命普及的關鍵,在於根據中小企業的現場需求,導入IT及機器人等技術,因此將請機器人專家支援,在兩年內將技術導入1萬家以上的企業。 (2)人工智慧的研發係屬第四次工業革命的基礎技術,因此要建構提供AI軟體模組工具,以及推動標準化的完善環境,並於今年內提出研發及產業化的具體施政內容,並留意開發人工智慧的透明性、控制可能性等原則及國際動向。 (3)關於產業活用區塊鏈技術(Block chain)、整備制度促進資料流通等議題,預計於今年秋天提出對應方針。 (4)於「機器人革命倡議協議會」檢討製造業之商業模式改革、與德國共同提案國際標準化及先進案例。 (5)於2020年以前,運用傳感器蒐集資料,創造50件以上,工廠和總公司間,企業和企業間等超越組織框架的先進案例,並提出國際標準。 (6)進行智慧工廠實證,建構具備AI技術的自動化模組以及智慧的產業保全。此外,為超越既有企業間的框架,將於機器設備進行資料共有及活用的實證,並根據實證結果修正相關制度。 (7)整備促進資料利用的環境,特別著重能夠蒐集、分析的資料平台,形成健全的資料流通市場。因此,為釐清彼此的權利義務關係,今年內個人資料保護委員會將提出相關交易指針。 (8)強化智財紛爭處理系統,將徵詢產業界的意見,於今年提出法制改革的結論。 (9)強化中小企業的智財戰略以及必要審查體制,協助其申請及活用專利權,預計明年度開始擴大支援業務,負責機關為獨立行政法人工業所有權資料‧研修館(INPIT)。

美國國家標準暨技術研究院發布「人工智慧風險管理框架:生成式AI概況」

  美國國家標準暨技術研究院(National Institute of Standard and Technology, NIST)2024年7月26日發布「人工智慧風險管理框架:生成式AI概況」(Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile),補充2023年1月發布的AI風險管理框架,協助組織識別生成式AI(Generative AI, GAI)可能引發的風險,並提出風險管理行動。GAI特有或加劇的12項主要風險包括: 1.化學、生物、放射性物質或核武器(chemical, biological, radiological and nuclear materials and agents, CBRN)之資訊或能力:GAI可能使惡意行為者更容易取得CBRN相關資訊、知識、材料或技術,以設計、開發、生產、使用CBRN。 2.虛假內容:GAI在回應輸入內容時,常自信地呈現錯誤或虛假內容,包括在同一情境下產出自相矛盾的內容。 3.危險、暴力或仇恨內容:GAI比其他技術能更輕易產生大規模煽動性、激進或威脅性內容,或美化暴力內容。 4.資料隱私:GAI訓練時需要大量資料,包括個人資料,可能產生透明度、個人資料自主權、資料違法目的外利用等風險。 5.環境影響:訓練、維護和運行GAI系統需使用大量能源而影響碳排放。 6.偏見或同質化(homogenization):GAI可能加劇對個人、群體或社會的偏見或刻板印象,例如要求生成醫生、律師或CEO圖像時,產出女性、少數族群或身障人士的比例較低。 7.人機互動:可能涉及系統與人類互動不良的風險,包括過度依賴GAI系統,或誤認GAI內容品質比其他來源內容品質更佳。 8.資訊完整性:GAI可能無意間擴大傳播虛假、不準確或誤導性內容,從而破壞資訊完整性,降低公眾對真實或有效資訊的信任。 9.資訊安全:可能降低攻擊門檻、更輕易實現自動化攻擊,或幫助發現新的資安風險,擴大可攻擊範圍。 10.智慧財產權:若GAI訓練資料中含有受著作權保護的資料,可能導致侵權,或在未經授權的情況下使用或假冒個人身分、肖像或聲音。 11.淫穢、貶低或虐待性內容:可能導致非法或非自願性的成人私密影像或兒童性虐待素材增加,進而造成隱私、心理、情感,甚至身體上傷害。 12.價值鏈和組件整合(component integration):購買資料集、訓練模型和軟體庫等第三方零組件時,若零組件未從適當途徑取得或未經妥善審查,可能導致下游使用者資訊不透明或難以問責。   為解決前述12項風險,本報告亦從「治理、映射、量測、管理」四大面向提出約200項行動建議,期能有助組織緩解並降低GAI的潛在危害。

歐盟隱私工作小組支持擴大通知義務之業者範圍

  歐盟隱私權工作小組(working party)日前公布其對「隱私與電子通訊指令」(Directive on Privacy and Electronic Communications, 2002/58/EC)之修正意見,藉此重申支持個人資料外洩通知責任立法之立場,並建議擴大適用通知責任之業者範圍至涉及線上交易之電子商務之服務提供者。此項建議隨即遭到歐盟理事會及委員會之反對,認為通知責任應僅限於電信公司,而不應擴及其他電子商務服務提供者。   歐盟隱私權工作小組於2009年2月初提出的報告指出,個人資料外洩通知責任法制(Data Breach Notification Law)之建立對於資訊社會服務(Information Society Service)之發展是必要的,其有助於個人資料保護監督機構(Data Protection Authorities)執行其職務,以確認受規範之服務提供者是否採取適當的安全措施。再者,亦可間接提高民眾對於資訊社會相關服務使用之信心,保護其免於身份竊盜(identity theft)、經濟損失以及身心上之損害。   然而,歐盟理事會及歐洲議會則反對該項修正建議,其一方面認為不應擴張資料外洩通知責任制度適用之業者,另一方面則認為對於是否透過法制規範課予業者通知之義務,應由各國立法者決定是否立法,甚或由業者依資料外洩情形嚴重與否,來判斷是否通知其各國個人資料保護相關組織及客戶。此外,參考外國實施之成效,美國雖有多數州別採用資料外洩通知責任制度,但並非所有的隱私權團體皆肯認該項制度;英國資訊委員會對於該制度之成效則仍存質疑,因從過去為數眾多的個人資料外洩事件看來,其效果已逐漸無法彰顯。   雖然歐盟個人資料保護官(European Data Protection Supervisor)與歐盟隱私權工作小組之看法一致,但其與歐洲議會與歐盟理事會仍存有歧見,對於個人資料外洩通知責任制度之建立,似乎仍有待各方相互協商尋求共識,方能決定是否納入歐盟隱私及電子通訊指令之規範。

美國上訴法院推翻FCC對廣電節目猥褻言論之認定

  美國紐約第二巡迴法院上訴法院於2007年6月5日做出判決,認定FCC對於廣電節目是否違反猥褻言論規範之判斷標準為恣意專斷(arbitrary and capricious)的決定。此一案件起因於福斯電視台轉播2002年及2003年音樂告示排行榜頒獎典禮(Billboard Music Awards)時,歌手Cher及名人Nicole Richie分別在典禮中說出不雅言詞,事後FCC認定福斯電視台之轉播違反廣電節目之猥褻言論相關規範。福斯電視台對於FCC之認定不服,因而向法院提起訴訟。   依照過去FCC對猥褻言論之認定標準來看,「瞬間之咒罵言詞」(fleeting expletives)並不屬於猥褻言論,廣電節目中播出相關內容並不違反猥褻言論之管制規範。但自2003年起,FCC改變認定標準,認為所有不雅言詞均不可避免地帶有性暗示之內涵,因此廣電節目中凡涉及不雅言論之內容都是猥褻言論。   根據紐約第二巡迴法院上訴法院之判決指出,FCC的決定毫無疑問地改變了對於廣電節目是否違反猥褻言論規範之認定標準,且FCC對於改變認定標準一事所提出的理由並不具有說服力;FCC於訴訟過程中亦承認,即便在決定改變認定標準前,也沒有證據顯示廣播電視台曾密集播送充滿咒罵言論之內容。因此,紐約第二巡迴法院上訴法院認為,FCC改變認定標準一事乃是恣意專斷的決定,從而撤銷FCC對於福斯節目之認定。對於法院之判決,FCC主席Kevin Martin表示遺憾以及難以置信,將會委請律師研議是否繼續上訴最高法院。

TOP