合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/02/23)
引註此篇文章
你可能還會想看
FCC提出推動10年國家寬頻計畫

  2009年2月美國總統歐巴馬簽署美國振興經濟方案,釋出72億美元擴展寬頻網路連結應用,以網路開放為前提,要求聯邦通訊委員會提出國家寬頻計劃。美國聯邦通訊委員會(FCC )在2010年3月12日公布將推動一項歷時十年的遠大計畫,希望透過建立高速網際網路,重塑美國媒體與科技優先順序的概念。該計畫預定2010年3月16日送交國會。   這項計畫反映美國正視寬頻網路正逐漸成為取代電話與廣播電視業的普通媒介,工作重點在於強化網際網路存取方便性。該項計畫的重點包括補助網際網路提供者佈建偏遠地區的網路服務、拍賣頻譜以供無線寬頻設備使用,以及發展新型態的有線電視與上網功能之全面式機上盒。   此一計畫牽涉數百億美元的聯邦經費,但FCC認為,應可透過拍賣頻譜自給自足。此外,該計畫中的部分建議,尚須國會採取行動與業者支持才能落實,至於使用者恐怕要在數年後才能看到效果。   目前美國在使用寬頻與高速上網等方面落後包括亞洲國家在內的許多國家,約超過30%的美國人無法上網,原因是負擔不起或是沒有意願使用。而FCC的計畫希望能將美國打造成一個完全網路連結的環境,透過還有待矽谷研發的無線裝置讓民眾能快速上網取得健保資訊、進行網路學習,以及進行警民連線。   不過,FCC必須審慎處理既有業者上網費率與品質的問題,此外,不少電視業者以供公眾利益為由反對,並抗拒交回頻譜,以及認為這樣計畫將會導致訊號覆蓋及干擾的問題。

美國新法案要求無線營運商需揭露4G服務之最低保障頻寬

  美國眾議員Anna Eschoo提出了新的「下世代無線揭露法案(Next Generation Wireless Disclosure Act)」,要求行動網路營運商必須在提供4G服務時,向既有及潛在客戶揭露最低保障資料傳輸速度,以及網路運作的平均表現統計資訊。   根據該眾議員提出之法案內容,該法案旨在確保消費者在有關4G網路服務傳輸速度以及營運商所承諾之最低保障傳輸速度等事項上,擁有有完整和準確的資訊。該法案還可以幫助消費者了解業者網路運作的可靠性、服務覆蓋區域和價格資訊。   Eshoo眾議員表示:「當消費者申請了一個4G傳輸服務方案時,消費者有權知道他們所支付的金錢與所得到的實質服務內容。當無線服務產業投資數十億美元,用以改善服務覆蓋範圍、增進網路可靠性以及提供更高的傳輸速度,而同時消費者對於4G服務的需求也如期望的出現大幅成長。在這樣的情況下,消費者需要知道他們由營運商實際得到的服務速度。」   該法案期望建立準則,使消費者正確理解4G服務資訊(例如該速度是指平均速度或尖峰速度、在什麼情況下速度可能下降等),確保消費者在申請服務之潛能獲得足夠的資訊。 舉例而言,該法案要求營運商說明服務之內容包含: - 保證最低資料傳輸速度; - 網路的可靠性; - 提供服務以及訊號之覆蓋範圍; - 定價; - 業者用於提供4G服務之技術(WiMax or LTE)

何謂「CRADAs」?

  CRADAs係研發合作契約(Cooperative Research and Development Agreements)之縮寫,為美國國家衛生研究院(National Institute of Health,NIH)與業界和學術界進行科學技術研究發展產學研合作時所簽訂之契約。基於美國國家衛生研究院投入相關領域技術發展之機關設置目的,其所屬之科學家們可以利用本身的科研資源,與業界或學術界共同合作促進保健藥品和原型(prototype)開發與產品進一步的商業化量產。此外,業界也可利用本身私部門的研發力量,介接在國家層級最先進的技術研究合作。   研發合作契約的目的是專為使政府設施、政府補助研發成果之智慧財產權,透過與私部門之產學研合作提供合作互動,以促進科學技術知識之發展轉化為具有市場價值之商業化用途。配合契約之簽署,針對研發合作之權利義務,美國國家衛生研究院另設置有科技發展合作中心(Technology Development Coordinator,TDC),作為研發合作早期階段進行磋商與諮詢之專業機構,以幫助瞭解和研擬適當內容的研發合作契約,並順利依法獲得相關主管機關之核准。

英國「創新持續貸款」

  英國創新局(Innovate UK)於2020年11月8日公布「創新持續貸款」(Innovation Continuity Loans)申請指南,作為COVID-19疫情應對計畫的工作項目之一,英國創新局將提供2.1億英鎊的貸款予在疫情影響下持續進行創新活動之國內中小企業。本貸款目標對象為因疫情導致出現資金缺口的中小企業,每一間公司將可申請25萬至160萬英鎊不等之創新持續貸款。   「創新持續貸款」源自2017年的創新貸款實驗計畫(Innovation loans pilot),藉由七項創新競賽篩選出約100位申請人,提供總額約7500萬英鎊的創新貸款;此次創新持續貸款則不採競賽方式,而是針對受疫情影響的中小企業創新活動,透過審查機制提供貸款予申請人。申請人資格為正在執行受創新局補助之創新活動者、過去36個月曾受創新局補助而目前正在進行其他創新活動者或是過去36個月並未獲得創新局補助之創新活動的執行、完成或延續性工作者,且確實因COVID-19疫情影響出現資金短缺之中小企業,即可向創新局申請創新持續貸款。   創新局將藉由審查申請者提交至今的工作成果與品質、受疫情影響程度與資金需求情形,評估該創新活動的後續發展潛力,向合格的申請人提供年利息僅3.7%的創新持續貸款。合格的申請人能在2022年3月31日或約定日期前,直到產品首次商業銷售為止,分階段領取貸款,以年利率3.7%計息;產品首次商業銷售後可額外有兩年的寬限期,在產品首次商業銷售或寬限期結束後五年內,申請人必須償還貸款,未償還部分則改採年利率7.4%計息。藉由低利貸款的資金挹注,協助從事新創活動之英國中小企業得以紓困以度過疫情難關。

TOP