合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=645&tp=1 (最後瀏覽日:2025/11/21)
引註此篇文章
你可能還會想看
OECD就全球企業最低稅負制發布避風港規則

經濟合作暨發展組織(下稱OECD)於2022年12月20日發布全球企業最低稅負制(即第二支柱,下稱最低稅負制)的「避風港與罰款免除規則」,再於2023年2月2日發布進階行政指引。系爭規則與指引旨在協助跨國企業降低法律遵循成本。 經蓋最低稅負制為防免跨國企業以稅捐規劃(如移轉訂價等方式)持續侵蝕稅基,透過實施補充稅(Top-up Tax)制度,並配合所得涵蓋與徵稅不足支出等原則,即向上或向下分配等方式,確保全球收入逾7.5億歐元的跨國企業及其所有經濟實體的個別有效稅率均不低於15%。 經上述補充稅制度看似簡單,惟其實施同時涉及各國相互合作與彼此補充稅間可能的零和遊戲,徵之各國境內稅捐制度調整、現有國際稅捐規則的淘換與新國際稅捐規則的建立等交互作用下,導致OECD與最低稅負制有關文件繁多,內容細項更不計可數,增添不確定性;另外,包含我國在內的許多國家均表示將於2024年起陸續實施全球企業最低稅負制,再增添急迫性。此不確定性與急迫性的雙重夾擊,致使受規範跨國企業法律遵循成本持續增加。 經準此,為避免最低稅負制不當限制跨國企業發展,甚至有害全球經濟,OECD提出避風港條款,使位於高稅負或低風險稅捐管轄區的跨國企業或其經濟實體得減免其補充稅或簡化其計算基礎等,提高補充稅制度確定性以協助降低跨國企業法律遵循成本。

客戶機密資料外洩事件頻傳 美國AT&T 8月底也被駭

  美國資安事件頻傳,美國 8/30 驚傳電信及電報公司( AT & T )購物網站中之顧客消費資料遭駭客竊取事件。 AT & T 發言人表示工程師在發現異狀後一個小時內關閉該網站並已採取相關保護措施,據 AT & T 估計約 1 萬 9 千名在該網頁上以信用卡消費的顧客機密資料已外流,目前該公司正進行通知客戶之動作,並聯繫相關信用卡公司,期能將對顧客之損害降至最低。   AT & T 通知當事人之作法,符合美國立法之趨勢。目前美國除了部分州已經通過立法要求資料持有業者必須將資料外洩事件告知當事人外,今年 7 月 19 日 Virginia 州議員 Thomas Davis 亦提出美國聯邦法典第 44 編( title 44 )修正提案,該提案通過後將強化美國聯邦法典中對於個人資料外洩時資料收集者之告知義務,以避免當事人因此蒙受損失。   雖然法規要求漸趨嚴格、完整,但長期關注隱私權問題之 Privacy Rights Clearinghouse 估計,美國自去年 2 月起至今年 8 月底止,約有 9100 萬人次之機密資料遭到竊取,換言之,約 1/3 的美國人機密資料曾遭竊取或外洩,網際網路與駭客技術的發展使得機密資料今日已不再機密了。

美國交通部公布車輛與基礎設施間聯網指引,強化車聯網時代行車安全

  美國交通部(U.S. Department of Transportation)部長(時任)Anthony Foxx於2017年1月19日公布「車輛與基礎設施間聯網指引」(Vehicle-to-Infrastructure (V2I) Guidance),旨在透過加速車輛與基礎設施間通訊系統之布建,增進車聯網時代的行車安全與機動性。同時,本指引也將補充交通部於2016年12月所公布之車輛間通訊規則草案,後者最重要的目的是透過車輛間通訊技術的管理,提升駕駛人對於碰撞與潛在危險的認知以預為因應。透過車輛與基礎設施間聯網指引,交通部聯邦公路管理局(Federal Highway Administration, FHWA)將協助運輸系統的所有人與操作人進行相關技術的布建,並讓各運輸事業主管機關與收費道路管理機關,了解布建相關技術之決策所可能造成的影響,並為相關技術的未來發展與聯邦挹注資金的利用(因為多數的V2I能夠整合於既有之ITS設備或道路周邊基礎設施,因此符合聯邦對ITS的補助條件),做好準備。   車輛與基礎設施間之通訊,是車聯網環境的重要構成部分,透過硬體、軟體、韌體、以及無線通訊系統,相關資料不但能在車輛間進行動態傳輸,亦得在車輛與道路基礎設施間進行傳輸。聯邦公路管理局局長(時任)Gregory Nadeau表示:「除了增進行車安全,車輛與基礎設施間之通訊技術能提供相當大的機動性,並為整體環境帶來益處。車輛與基礎設施間之通訊與聯網,以及諸如隱私與互通性等更大的挑戰,都將由本指引作為展開全國性對話的起點。」車輛與基礎設施間聯網(V2I)可謂智慧運輸系統(Intelligent Transportation Systems, ITS)的次世代技術,其能捕捉車輛所產生的交通資料,並向車輛無線傳輸例如行車建議等的資訊,讓駕駛人能夠掌握與安全性、機動性、甚或是與整體環境相關的所有情況。   車輛與基礎設施間聯網指引的內容,目前包括聯網車輛運輸衝擊規劃初階報告(Connected Vehicle Impacts on Transportation Planning Primer)、聯網車輛運輸衝擊規劃桌上參考手冊(Connected Vehicle Impacts on Transportation Planning Desk Reference)、技術備忘錄第2號:聯網車輛規畫流程與產品及利害關係人角色與責任(Connected Vehicle Planning Processes and Products and Stakeholder Roles and Responsibilities)、技術備忘錄第3號:新型與強化型分析工具、技術、與資料之需求分析(Analysis of the Need for New and Enhanced Analysis Tools, Techniques, and Data)、技術備忘錄第6號:運輸規劃導入互聯車輛所需之技能與專業知識(Skills and Expertise Required to Incorporate Connected Vehicles into Transportation Planning)、新型與強化型分析工具、技術、與資料之需求分析:公路容量手冊簡介(Highway Capacity Manual Briefing)、新型與強化型分析工具、技術、與資料之需求分析:交通系統模擬模式簡介(Briefing for Traffic Simulation Models)、以及聯網車輛運輸衝擊規劃:社區關懷案例研究(Outreach to Planning Community)。   另外,為了讓執照核發條件透明化,相關的典範實務(best practices)也能為各政府與民間組織機關近用,以布建聯網車輛專用短程通訊(Dedicated Short Range Communications, DSRC)路邊基地台(Roadside Units, RSU)與相關服務,用以支援車輛與基礎設施間之聯網應用,亦針對執照持有人訂有指引(Guide to Licensing Dedicated Short Range Communications for Roadside Units)。

網路媒體界群起抗議,美國總統歐巴馬表示反對,SOPA法案遭到擱置

  SOPA法案,全名「禁止網路盜版法案(The Stop Online Privacy Act)」,是於2011年10月26日由美國眾議員Lamar Smith所提出,主要支持團體包括美國「娛樂軟體協會(the Entertainment Software Association)」、網路域名公司GoDaddy.com、「美國動畫協會(the Motion Picture Association of America)」以及「美國商會(United States Chamber of Commerce)」等等。另外一個類似的法案為美國參議院於2011年5月提交的「保護知識產權法案」,簡稱PIPA(Preventing Real Online Threats to Economic Creativity and Theft of Intellectual Property Act),該法案原預訂於2012年1月24日交付表決。   2012年1月18日,為了表明對SOPA的反對立場,美國各網站發起了關站的行動,包括Google、Wikipedia等這些大型網站皆參與了抗議行動(抗議行動的參與網站名單可參考下述網址: http://sopastrike.com/)。美國總統歐巴馬也於今年一月公開表明他不會支持SOPA以及類似的法案,主因為該法案箝制了資訊流的自由發展。白宮於官方部落格表示「保護線上智慧財產權的重要任務不可危害網路的開放以及創新發展」、「任何打擊線上盜版的努力必須避免線上審查對合法活動所造成的風險,並避免阻礙了商業的創新發展」、「我們必須避免創造新的網路安全風險或者是瓦解網路的基礎架構」、「期許並鼓勵所有的私人團體,包括網路內容創作人以及網路平台提供人,共同努力,採取自願性的措施以及最佳作法去減少線上盜版」,但是部落格中的聲明也指出,線上盜版已經是危害美國經濟的一個重要問題,它危害了中產階級的工作,並且危害了具有創造力以及創新力的美國公司以及企業。由於反對的浪潮,SOPA以及PIPA法案於今年1月20日正式地遭到議院擱置。   SOPA的立法主要是用來打擊國外販售仿冒品的網站以及提供非法下載影音軟體系統的網站,俗稱「海盜灣(pirate bay)」,使用人在這些網站只要輸入影集或者是電影名稱就可以免費下載收看。這些海盜灣由於伺服器不在美國境內所以難以管制,但是透過SOPA,美國政府可以藉著管制美國的網路服務者去切斷這些海盜灣在美國提供服務的生路。依照SOPA,Google將被禁止在其搜尋結果中顯示這些海盜灣,PayPal也將被禁止提供資金傳輸服務與這些被認定有侵權事實的業者。   事實上,著作權的侵權行為原本就是非法的,在此之前已有「數位千禧年著作權法案(the 1998 Digital Millennium Copyright Act,簡稱DMCA)」提供執行措施。依照本法,舉例說明,假設歌曲創作人發現有人非法在YouTube上上傳其享有著作權的歌曲,著作權人可以要求YouTube將之下架,這樣的要求稱為「DMCA 投訴公告(DMCA warning)」。光是2011年,Google就收到了約五百萬筆侵權下架的要求,若確定要求為合法,Google一般而言會在六個小時之內將之下架。問題在於DMCA投訴公告對於美國國外的網站並無法發揮其預期的效力。   但是類似YouTube這類的網站經營者則擔心,SOPA可能帶來網站營運者必須負擔審查使用人所上傳的檔案是否有侵權事實義務的負面效應。依照SOPA,任何支付服務或者是廣告營運主都需要提供一個管道供第三人檢舉「偷竊美國財產」的使用人,一遭檢舉,營運主就有義務在五天之內切斷其服務。雖然亂檢舉有刑事責任,但是是否無侵權行為的舉證責任則需要受控告者自行負擔,而許多小網站以及非營利性網站根本無力去負擔龐大的訴訟費用。另外,反對者認為SOPA對於「搜尋引擎(internet search engine)」以及「國外侵權網站(foreign infringing site)」的定義過於廣泛,在本法之下,維基百科也會被定義為「搜尋引擎」,並有義務在任何美國法院的要求下去移除「國外侵權網站」的有關聯結,否則將會被視為助長侵權行為並面臨「藐視法庭罪」,這將造成言論自由箝制的相關問題,除此也會大量增加維基百科的營運成本。業者多表示肯認SOPA的立意並表示願意合作,但是業者表示SOPA過於廣泛模糊的法規文字將可能會流於網站內容的審查並造成無法控制的後果。反對者指出,SOPA的影響範圍無法預測,網站內容若只是部分有侵權疑慮,可能整個網站都無法出現在搜尋引擎的搜尋結果中。「電子前哨基金會(Electronic Frontier Foundation, EFF)」指出,類似Facebook或YouTube這類由使用者自創內容的網站,未來可能都要被迫自行去監管網站內容,將大量增加營運成本。另一方面而言,SOPA賦予業者只要具有合理懷疑就可以封鎖使用者,這將會成為大公司用來打壓潛在競爭者並迴避反托拉斯法的手段。

TOP