合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/01/31)
引註此篇文章
你可能還會想看
新加坡通過2010年版電子交易法施行細則

  繼新加坡2010年版本電子交易法(Electronic Transactions Act, ETA)於2010年7月1日式施行後,該國資通訊發展局(Info-communications Development Authority, IDA)因應修正電子交易法施行細則,該細則並於2010年11月1日起正式實施。其目的在使憑證機構管理制度得以配合新興資訊安全技術齊驅發展,進而使其與國際趨勢相符,修正要點如下:   1. 修正許可制為志願許可制:此次修正最大變革即在使該國憑證機構管理制度由原本的許可制,改為志願許可制。前者係使所有憑證機構均應向主管機關申請許可後,始能對外簽發憑證;而志願許可制則是原則上憑證機構對外簽發憑證無需主管機關許可,但憑證機構如果希望所簽發之憑證具備特定法律效果,則仍須經過許可。   2. 證據法上的推定效果:經過自願申請許可通過的憑證機構,經其所簽發之憑證而製作的數位簽章將有證據法上推定為真之效力,無待憑證用戶舉證即有其真實性,惟該真實性仍可由他方另舉反證推翻。換句話說,若數位簽章製作人使用的憑證為一般未經申請許可之憑證機構所簽發者,憑證用戶需先向法院提出其他輔助證據證明該簽章真實性。   3. 許可申請之要求:憑證機構自願申請許可時,應繳交申請費1千元新加坡幣(下同)及2年有效之許可執照費1千元。此外,新版施行細則統一整合舊有之「安全指導手冊」(Security Guideline)及其他各項稽核規定於「稽核需求要項表」(Compliance Audit Checklist),以供憑證機構得以更便利之方式了解並遵循共通之稽核程序。

歐盟正式通過資料治理法(DGA),歐盟資料共享發展跨出一大步

  歐盟理事會(Council of the European Union)於2022年5月16日正式通過了資料治理法(Data Governance Act, 簡稱DGA),本法是歐盟執委會(European Commission)於2020年11月提案,經過一年多的意見徵詢與協商,歐盟議會(European Parliament)於今(2022)年4月6日以501票贊成通過,隨後由歐盟理事會通過公布,本法預計將於2023年8月正式生效。   DGA包含幾大面向,除了針對資料中介服務(data intermediation)、資料利他主義(data altruism)、歐盟資料創新委員會(European Data Innovation Board)等機制建立的規定外,在第二章特別針對公部門所持有之特定類別資料的再利用(reuse)進行規定。當公部門持有的資料涉及第三方受特定法律保護的權利時(如涉及第三方之商業機密、智慧財產、個資等),本法規定公部門只要符合特定條件下可將此類資料提供外界申請利用;若為提供符合歐盟整體利益的服務且具有正當理由和必要性的例外情況下,得授予申請對象專有權(exclusive rights),但授權期間不得超過12個月;歐盟應以相關技術確保所提供資料之隱私和機密性。   再者,各會員國應指定現有機構或創建一個新機構擔任提供上述資料類型的單一資訊點(Single Information Point, SIP),以電子方式公開透明地提供資料清單,包含可申請利用之資料的來源及相關描述(至少包含資料格式、檔案大小、再利用的條件等),以提供中小企業、新創企業便利、可信的資料查詢管道。此外,歐盟執委會應建立一個單一近用點(Single Access Point, SAP),提供一個可搜尋公部門資料的電子登記機制(a searchable electronic register of public-sector data),讓使用者得直接搜尋各會員國單一資訊點(SIP)中所提供的資料及相關資訊。   DGA是歐盟2020年2月發布歐盟資料戰略(European Data Strategy)後的第一個立法,歐盟希望透過本法建立一套能提升資料可利用性和促進公私部門間資料共享的機制,以創造歐盟數位經濟的更高價值。 「本文同步刊登於TIPS網站(https://www.tips.org.tw)」

澳洲擴大對中小企業之政府採購競爭機會

聯邦採購規則(Commonwealth Procurement Rules)為澳洲財政部(Australia Government Department Of Finance)依公共治理、績效及課責法(Public Governance, Performance and Accountability Act 2013)授權所訂定之採購規範。澳洲財政部於2024年發布新修正之聯邦採購規則,並於同年7月1日生效。 新修正之聯邦採購規則除維持現行架構及核心精神外,另增訂聯邦供應商行為準則、擴大經濟效益評估、促進性別平等等措施,同時也擴大對中小企業之支援與協助。 為確保中小企業參與政府標案之公平競爭,新修正之聯邦採購規則要求澳洲政府在評估採購案時應適當提供中小企業競爭機會,並以符合最佳性價比之原則考量下列事項: 一、 向具有競爭力之中小企業進行採購之效益; 二、 中小企業參與競標之障礙,如投標之資金成本; 三、 中小企業之能力及對地區市場之貢獻; 四、 增加潛在供應商數量以最大化競爭所產生之效益,包含在合適之情況下,將大型專案拆分為數項小型專案。 此外,新修正之聯邦採購規則要求聯邦機構提高對中小企業採購之比例。依新修正之聯邦採購規則第5部分,超過澳幣10億元之採購契約,採購總金額中至少25%應係向中小企業採購,較修正前提高5%;超過澳幣2,000萬元之採購契約,採購總金額中則至少應有40%係向中小企業採購,較修正前提高5%。 本次修正是考量中小企業對於澳洲經濟有所貢獻,因此提高中小企業之採購比例,預計修正後亦可讓更多中小企業獲得採購機會。

IBM Watson Health與FDA合作研究區塊鏈技術之醫療運用

  根據專利資料庫公司IFI CLAIMS公佈2016年美國專利統計報告,IBM以8,088件專利再度蟬聯冠軍,其中多著重在人工智慧(artificial intelligence)、認知運算(cognitive computing)、及雲端(cloud)等技術領域,也有健康醫療相關專利。   近期IBM Health與美國食品藥品管理局(U.S. Food and Drug Administration)展開兩年期之合作研究,透過區塊鏈技術(blockchain)以安全且去中心化的方式進行數據共享,如:交換電子病歷、臨床試驗、基因數據、甚至過去難以取得的病患行動與穿戴裝置數據及物聯網(Internet of Things)數據等。   傳統上病患的病歷資訊存放於各診療單位或醫療機構,造成資訊管理效率及互通性較低,在區塊鏈技術的架構下,有效率的將大量且多樣的醫療數據進行彙整,並藉審查追蹤紀錄以防止竄改,提升病歷數據傳輸管理的可靠性及安全性。在如此多元化的醫療數據共享環境下,有助於醫療診斷、更將能促進產業發展。   此外,過去病患穿戴裝置所測得的日常生理數據,不管在數據取得、或將該些數據應用至臨床診斷上皆存有許多問題,如今區塊鏈技術將能提高物聯網數據資訊之整合性。依調查顯示,預計有80%新創組織採用區塊鏈技術於物聯網數據管理與應用上。   其他應用商機更包括居家監控、慢性疾病管理、藥物整合(medication reconciliation)及供應鏈管理等。IBM預估,至2017年底將會有16%的健康醫療機構採用以區塊鏈技術為架構的管理工具,並預測十年內採用比例將達72%。 本文同步刊登於TIPS網站(https://www.tips.org.tw)」

TOP