合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2024/07/16)
引註此篇文章
你可能還會想看
美國放棄建立全國性免費無線寬頻網路計畫

  四年前,由M2Z網路公司(m2znetworks)向FCC建議,以AWS頻段(1.9GHz~2.1GHz建立)建立高速寬頻網路,並將運用其中一部份,建立速率達768Kbps的網路服務,在十年的期間內,免費提供公眾使用。M2Z計畫與美國各地申請BTOP(Broadband Technology Opportunities Program,寬頻技術機會計畫)補助的地方政府合作,建立免費無線寬頻服務。後續營運的支出將以廣告、與合作伙伴的收益及自有資金支應,並將支付收益的5%給美國財政部。   在經歷諸多考量後,2010年9月,FCC認為這並非一個好的政策措施,並向M2Z公司表示,將不支持這項計畫,而將繼續透過全國寬頻計畫以及普及服務基金的運作,促使寬頻網路普及化。   當M2Z提出這項計畫時,引起非常多的爭論,因其計畫初期提出將建立過濾色情內容的機制,使其成為家庭友善的服務。之後,包括頻譜使用的干擾以及768Kbps的免費網路是否符合需求,也引起其他網路服務商的反對,。而FCC所公布之國家寬頻計畫,其基礎目標是4Mbps之寬頻接取,因此M2Z的計畫顯然已經不合乎FCC的整體規劃。   消息公開之後,許多無線產業紛紛認同FCC的看法,如反對本項計畫最力的CITA無線協會即發表聲明表示,FCC放棄這項構想是正確的決定,因為M2Z的計畫將不能充分發揮AWS頻段的價值,同時提供的服務速度也太緩慢不符合公眾利益。FCC應回歸國家寬頻計畫,合理的規劃整體頻譜資源,釋出更多頻譜提供無線寬頻市場新的機會。

美國參議院通過「寬頻資料促進法」

  2008年10月,美國參議院通過「寬頻資料促進法」(Broadband Data Improvement Act),由總統簽署後施行。此新法賦予機關提升寬頻有關資料正確性的義務,以精確的資料作為相關政策制定時之衡量基準。美國政府認知,必須架構最完善的寬頻網路基礎,方能保持美國在科技領域的世界領先地位,因此聯邦政府有責任持續拓展寬頻接取網絡,並著手佈建次世代寬頻技術。而此前提,在於取得精確資料供後續施政依循。     以往美國聯邦通訊委員會(FCC)蒐集寬頻相關資料的方式,常被批評不合時宜,2008年3月FCC主動改善其蒐集資料的方式,要求寬頻業者必須透過地域性人口調查方式,提供使用者人數、速度、及技術類型等資料。此新法更要求FCC表列出欠缺寬頻設施的地區,兼調查該等地區人口及收入水準,而改善寬頻接取的情形,為加速佈建寬頻環境的第一步。     除此以外,新法的要求尚包括:1、美國商業部及其他機關應促進所蒐集相關資料的正確性,以擬定較妥適政策來提升寬頻技術架構;2、FCC針對寬頻佈建展開年度例行調查,以五碼郵遞區為一地理單位,列出尚未有寬頻的地區。並依據未有寬頻服務地域的人口數據,劃定可提供最多連線且傳輸高畫質影像的寬頻服務層級。此外,研究其他25個國家與美國寬頻服務的異同點;3、美國國勢調查局(Census Bureau)應持續調查社區居民是否擁有電腦,採取撥接或寬頻連線;4、設置補助金來促進網路普及。     惟有評論家指出,該法雖立意甚佳,但直至下個會計年度通過配套法案前,政府根本沒有足夠預算可執行此法律,該法可能只是政策測溫,並無太大實質效益。

英國ISP業者主動揭露網路速度資訊

  2011年5月英國電信主管機關Ofcom(Office of communications)對英國境內寬頻網路速率現況進行調查,寬頻網路平均下載速度從去年11月的6.2Mbits/s增為6.8Mbits/s,且有近半(47%)的使用者可享受到超過10Mbit/s的速度。   但廣告速度與真實速度間的差距擴大,今年5月業者平均廣告速度為15Mbit/s,,較真實速度6.8Mbits/s差距為8.2Mbit/s,而2010年11月平均廣告速度13.8Mbit/s真實速度6.2Mbit/s,差距為7.6Mbit/s。上述的差距主要發生於ADSL網路,英國有近75%的使用者仍用ADSL,此種傳輸方式將受到距離、纜線品質的影響。因此大多數業者所宣稱的20Mbit/s下載速度,僅能達到6.6 Mbit/s。有超過1/3的使用者速度為4 Mbit/s或更低。   F英國今年7月正式實施之寬頻速度自律規則(Voluntary Code of Practice on Broadband Speeds),為業者自願加入。除提供消費者「典型的速度範圍」(Typical Speed Range, TSR)資訊外,若消費者可使用速度小於業者宣稱之速度範圍,且業者無法解決問題時,在3個月內使用者可更換其他業者而無須罰款。目前已有BT、O2、Virgin Media等17家ISP業者加入自律規則中。

美國聯邦通訊委員會通過「數位機會資料蒐集計畫附加規則」,將改善美國境內寬頻網路布建差距之辨識

  美國聯邦通訊委員會(Federal Communication Commission, FCC)於2021年1月19日通過「數位機會資料蒐集計畫」附加規則(Digital Opportunity Data Collection additional rules),將幫助FCC蒐集更精確與準確的網路寬頻布建資訊(broadband deployment data),以完成美國境內寬頻網路布建差距之辨識任務。該規則規範了需向主管機關報告關於網路近用性和/或網路覆蓋率相關資訊的報告主體,使需要報告的固網和行動寬頻服務供應商範圍更加明確。另外該規則亦有針對網路服務供應商提出關於固網速度與網路延遲相關報告時,所應遵守事項作規範。   該規則亦針對蒐集各州、地方與部落網路寬頻布建資訊的對應實體(mapping entities)、聯邦政府機構,與第三方單位,制定此三方進行辨識寬頻網路布建差距作業時所應遵守之注意事項,並為網路服務供應商提交固網和行動寬頻覆蓋率地圖資料時,設置其提交流程所應遵守之相關規範。該規則要求行動式網路服務供應商提交依據實際情況的相關基礎設施資訊或現場測試資料,作為FCC對行動式網路覆蓋範圍調查和驗證的資料,這些資料還將應用於擴大某些特定區域行動式網路寬頻覆蓋範圍的相關作業上,以增加該區域居民的使用數位機會。   「數位機會資料蒐集計畫」附加規則將使FCC確切知道寬頻網的可近用服務位置和不可近用服務位置,以及更了解美國的寬頻網路需求,以確保將來每位美國公民都能使使用高速網路服務,這同時也是「數位機會資料蒐集計畫」的目的。

TOP