合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/01/16)
引註此篇文章
你可能還會想看
強化驗證技術以遏止網路犯罪

  美國聯邦政府與企業界正朝向增加驗證技術的使用,以遏止線上詐騙的盛行,所謂「雙重驗證( ”two-factor” Authentication)」機制,為美國聯邦財政機構檢測委員會(Federal Financial Institutions Examination Council, FFIEC )與美國芝加哥直銷協會( The Direct Marketing Association, DMA )推行,主要要求檢查除用戶名稱和密碼以外的東西來確認顧客的身份。   美國聯邦財政機構檢測委員會 —包括聯邦儲備(Federal Reserve)和聯邦存款保險公司(Federal Deposit Insurance Corp.,FDIC)等管理者在內,要求銀行2006年底皆必須加強網上身份驗證措施,如給每個顧客一份加密的憑證,這些憑證會向銀行證明用戶的真實身份。且該加密的憑證不會向發放該憑證的其它網站做出回應,這樣既保護了用戶,也保護了銀行。此外,美國聯邦財政機構檢測委員會審查員亦會定期檢查銀行的執行情況;而以美國芝加哥直銷協會為例,其要求會員於交易時所使用之電子郵件,須取得電子郵件系統的驗證,以確保電子郵件係由該協會成員所發出。   如同美國芝加哥直銷協會執行長 John A. Greco 所言,消費者可藉由此種驗證方式增加更多信心,對於其所取的資訊係來自可靠來源並具有合法性,可使市場減低網路犯罪之產生並對於政府、企業及消費者有更多保障。

中國大陸有關網路預約出租汽車之規範

  中國大陸國務院法制辦公室前於2015年10月10日在網站上公告,有關其交通運輸部就《網路預約出租汽車經營服務管理暫行辦法(徵求意見稿)》對外徵求意見至同年11月9日止。該暫行辦法係因應利用網路建構服務平台,並提供非傳統之職業駕駛或營業車輛的運輸服務類型,如Uber等。   由前述公開資料觀之,中國大陸預計對Uber或相關業者,只要符合從事網路預約出租汽車經營服務,即納入交通運輸主管部門之管制範圍。且依提供服務類型不同,區分為網路預約出租汽車經營服務(指平台)、及網路預約出租汽車經營者(實際提供服務之業者)二大類,並分別進行管理,如不得提供類似計程車之巡遊載客。   此外,依目前規劃,國務院交通運輸主管部門(指交通運輸部)負責指導全國網路預約出租汽車管理工作,而縣級以上的人民政府,其交通運輸主管部門(如地方交通委員會或交通局)須實施網路預約出租汽車管理。如要求縣級以上之主管機關應建立監管平台及進行監督管理,如定期公開車輛、駕駛人及乘客評價等資訊外,網路預約出租汽車經營服務之平台及相關業者依該暫行辦法規定須取得「道路運輸經營許可證」,而從事該運輸服務所使用之車輛除限7人座以下,並應登記為出租客運、安裝衛星定位及報警裝置等,且須有「道路運輸證」。   另該暫行辦法不適用於對原屬巡遊出租汽車使用電信、互聯網等方式為乘客提供服務,及不以營利為目的之共乘,如通勤或節假日私人小客車合乘等類型。

歐洲藥品管理局更新利益衝突規範

  歐洲藥品管理局(The European Medicines Agency,EMA)於3月底至6月初陸續發布四份利益衝突範。包括「處理管理董事會利益衝突政策方針」(European Medicines Agency Policy on the Handling of Conflicts of Interests of the Management Board),將董事會自過去的利益衝突獨立出來單獨規範;並針對違反利益聲明揭露訂立「EMA科學委員會和專家違反利益衝突信賴程序」(European Medicines Agency Breach of Trust Procedure on Conflicts of Interests for Scientific Committee Members and Experts),和「EMA管理董事會違反利益衝突信賴程序」(European Medicines Agency Breach of Trust Procedure on Conflicts of Interests for Management Board Members);以及修定「處理管理董事會、科學委員會成員和專家利益衝突政策方針」(European Medicines Agency Breach of Trust Procedure on Conflicts of Interests for Scientific Committee Members and Experts)。   針對專家和管理董事會所制定的處理利益衝突規範,主要目的是確保兩者在參與EMA的活動時,不會發生與醫藥業者相關聯的利益衝突,影響EMA公正性。觀察上述規範,可以發現EMA對於專家和管理董事會兩者的規範原則相當一致,皆聚焦於增進利益衝突處理過程的強健性(robustness)、有效性(efficiency)和透明性(transparency)。分別規範的原因在於兩者功能上的區別,分述如下: 1. 專家規範層面,有鑒於在先進醫藥領域中的專家有限,缺少可替代性,因此規範目的在於兼顧公正性與專業之間的平衡; 2. 管理董事會層面,由於其主要任務為監管和決策,規範上區別成員所參與活動的程度和範圍做更為細部的規範,與專家不同,並非有利益衝突就必須迴避。   為進一步加強EMA處理利益衝突的強健性,EMA科學委員會和專家,以及管理董事會違反利益衝突信賴程序的主要規範內容為專家和管理董事會成員作出不實利益聲明時,EMA的處理程序。可區分為調查、聽證與修正三個階段,分述如下: 1.調查階段,首先調查系爭當事人是否為不實之利益聲明後,評估是否啟動違反利益衝突信賴程序; 2.聽證階段,召開聽證會,聽證系爭當事人陳述觀點。倘若確定違反利益衝突信賴,系爭當事人即自EMA除名; 3.修正階段,EMA將審查系爭當事人曾經參與科學審查案件的公正性,並評估是否進行補救措施。   雖然EMA對於專家是否確實聲明利益缺少強制力,然而仍能透過新的利益衝突機制設計,看出EMA對完善利益衝突規範的企圖,值得近來正在修訂利益衝突機制的我國學習。

英特爾將停用開源碼授權

  英特爾公司宣布,將廢止一項適用於部分自家軟體的開放原始碼授權辦法。這家晶片製造公司表示,已通知開放原始碼促進會 (Open Source Initiative ; OSI) 移除英特爾的開源碼授權許可,未來不再以 OSI 認可的授權形式繼續使用。 OSI 是一個非營利性機構,其宗旨在推廣使用開放原始碼軟體,並且在 OSI 網站上公布一份開放原始碼軟體授權清單。該公司希望把英特爾開放原始碼授權 (Intel Open Source License) 「移除,未來停用」,藉此降低授權協議日益增多的情形。    授權協議如雨後春筍般地孳生,已引起開放原始碼社群人士關切,因為授權版本大增之後,有意採用開放原始碼軟體的企業必須多花一些錢評估、管理各類型的授權,無形中導致成本增加。英特爾發言人表示,決定廢止開源碼授權,是發現公司內部數年來一直未使用,公司以外的使用頻率也不高。 Smith 說,英特爾不希望讓這項授權的「解除許可」效力回溯既往,以免迫使企業重新取得程式碼的使用授權。

TOP