最新の人工知能に追いつくことに専念していない限り、「連合学習」という言葉を聞いたことがないかもしれません。 3Dプリンティングやドローンのような他の技術トレンドほど顕著ではないかもしれませんが, プライバシーと機械学習への影響は、はるかに多くの使用につながる可能性があります 今後数年で.
短くシンプルなバージョンは、フェデレーション学習が、FacebookのニュースフィードであろうとGoogleマップであろうと、現在私たちの生活の多くの側面を支配しているアルゴリズムを改善するための代替モデルであるということです。従来のシステムでは、データは中央サーバーに送信されて分析され、関連する情報を使用してアルゴリズムが変更されます.
連合学習は、ユーザーのプライバシーを強化するソリューションを提供します。 個人データの大部分は個人のデバイスに残ります. アルゴリズムはユーザーデバイス上で直接トレーニングを行い、データ全体ではなく、関連するデータの要約のみを送り返します。これにより、企業はユーザーのすべてのデータを収集する必要なくアルゴリズムを改善でき、よりプライバシー重視のソリューションを提供できます.
連合学習とは?
嘘をつかないようにしましょう。ほとんどの人にとって、連合学習の深さは複雑で理解しにくいように思えます。 AIの分野は多くの人々の知識の領域をはるかに超えており、私たちの多くが慣れているよりも多くの数学と論理を必要とします.
これらの困難にもかかわらず、連合学習は興味深い重要な技術開発であるため、頭を悩ませることは価値があります。物事を簡単にするために、全体像を理解できるように、概念を分解して簡単に説明します.
機械学習とアルゴリズム
1930年代のコスプレに日々を費やさない限り、あなたの人生はアルゴリズムに満ちています。このコンテキストでは、アルゴリズムを指すとき、本質的には 問題を把握したり、目的の結果を計算したりするために使用される式または命令セット.
Facebook、Instagram、およびTwitterは、これらを使用して、興味を引く可能性が最も高いパーソナライズされたコンテンツを配信し、プラットフォームをより収益化します。 Googleの検索エンジンは、洗練されたアルゴリズムを使用して、検索語を探していると思われるページに変換します。メールはアルゴリズムでスパムを除外しますが、Wazeはアルゴリズムを活用して、ポイントAからポイントBに到達する最も効果的な方法を見つけます.
他の無数のアルゴリズムがあり、タスクを完了したり、占有したり、日常のプロセスの裏に潜んだりするのに役立ちます.
企業は 最も効果的で正確かつ効率的な結果を提供するために、常にこれらのアルゴリズムを改善しようとしています, それが会社の目標と一致する限り–通常はお金を稼ぐ.
最もよく使用されるアルゴリズムの多くは、最初の展開から長い道のりを歩んできました。 90年代後半または2000年代初頭にGoogleで検索したことを思い出してください。非常に具体的である必要があり、その結果は現在と比べてひどいものでした.
これらのアルゴリズムはどのように改善されますか?
アルゴリズムがタスクで向上する方法の大部分は、機械学習に関連しています。これは、人工知能のサブフィールドです。機械学習アルゴリズムは、データのサンプルを取得して分析することから始まります。 彼らが学んだことを使ってタスクをより効果的に達成する. これらの変更は、人間の開発者などの外部の力によってこれらの変更をプログラムする必要なく改善できます。.
機械学習はここ数十年で活況を呈しており、アルゴリズムを改善し、より良い結果を得て新しい分野に進出しました。その有用性のために、 企業のための巨大な金makerけ Facebook、Google、その他多数.
すべてはデータから始まります。データプールが大きくなるほど、高品質のデータポイントの数が多くなります, これらの機械学習アルゴリズムはより正確になります. アルゴリズムの効果が高ければ高いほど、より多くのお金を稼ぐことができ、それは本質的にデータを商品に変えました.
これらの条件により、人々に関して収集されるデータの量が大幅に拡大しました。ほとんどの場合、このデータはユーザーの電話、コンピューター、その他の領域から収集され、サーバーに送信されて、アルゴリズムを改善するために分析されます。これは 多くの場合、より良いサービスと利便性の向上につながりましたが、プライバシーを心配している人々からも大きな反発がありました.
これらの企業には常にあなたの場所を知っており、あなたが誰と友達であるかを知り、検索履歴全体を知っているなど、不吉なことがあります。確かに、これらのタイプのデータ収集を回避する方法はありますが、ほとんどの人が気にすることは一般的にあまりにも実用的ではありません.
FacebookのCambridge Analyticaの大失敗やGoogle+の大規模なデータ侵害など、一連のデータプライバシーのスキャンダルの中で、企業は注目を集め始めています。奪われたくないので、彼らはユーザーや議員の怒りを上げることなく目標を進め続ける道を探しているようです。おそらく、今年のF8カンファレンスで、Mark Zuckerbergが「未来はプライベートです」と発表した時が流れた瞬間だったのでしょう。.
この動きを懐疑的に見るのがおそらく最善ですが、ユーザープライバシーに関してはいくつかの前向きな展開があります。その1つは連合学習です.
連合学習
ユーザーデバイスからサーバーにデータを取得する代わりに、アルゴリズムをデータに送信してみませんか?
これは、連合学習の背後にあるコアコンセプトです。この用語は、Googleの従業員が発表した2016年の論文で造語されたものであり、この分野の最前線にとどまっています。.
連合学習トレーニングプロセス.
連合学習は、適格なデバイスにアルゴリズムの現在のバージョンを送信することにより、アルゴリズムを改善します. このアルゴリズムのモデルは、選択したユーザーグループの電話のプライベートデータから学習します。. 完了すると、新しいナレッジの要約が会社のサーバーに返送されます。データ自体が電話から離れることはありません.
セキュリティのために、この知識は一般にサーバーに戻る途中で暗号化されます。サーバーが受信したサマリーに基づいて個々のデータを把握できないようにするために、Googleは セキュアな集約 プロトコル.
このプロトコル 暗号化を使用して、サーバーが個々の情報要約にアクセスするのを防ぎます. このスキームでは、サーバーは、数百または数千の他のユーザーからの結果に追加され、平均された後にのみサマリーにアクセスできます。.
代わりに, 差分プライバシーを使用して、ランダムデータノイズを追加できます。 個人の概要に、結果を不明瞭にします。このランダムデータは、サマリーがサーバーに送信される前に追加され、サーバーに、実際のサマリーデータが公開されることなく、アルゴリズムトレーニングに十分正確な結果を提供します。これにより、個人のプライバシーが保護されます.
Secure Aggregationプロトコルや差分プライバシーなどの手法は、組織とハッカーの両方からユーザー情報を保護するために重要です. それらがなければ、連合学習はユーザーのプライバシーを保証できませんでした.
情報要約が安全にサーバーに送信されると、それらはアルゴリズムの更新に使用されます. プロセスは数千回繰り返されます, また、アルゴリズムのテストバージョンもさまざまなユーザーデバイスに送信されます。これにより、組織は実際のユーザーデータでアルゴリズムの新しいバージョンを評価できます。分析はユーザーデバイスの範囲内から実行されるため、中央サーバーにユーザーデータをプールすることなくアルゴリズムを試用できます。.
テストが完了すると、更新されたアルゴリズムモデルがユーザーデバイスに送信され、古いモデルが置き換えられます。拡張アルゴリズムは、通常のタスクで使用されます。すべてが計画通りに進んだ場合、結果を達成するのにより効果的かつ正確になります.
その後、サイクル全体が何度も繰り返されます。
- 新しいアルゴリズムは、選択したユーザーデバイスのデータを調査します.
- このユーザーデータの概要をサーバーに安全に送信します.
- このデータは、他のユーザーの結果と平均化されます.
- アルゴリズムはこの情報から学習し、更新を生成してテストします.
- アルゴリズムのより高度なバージョンがユーザーにプッシュされます.
時間の経過とともに、アルゴリズムはユーザーデータから学習し、企業サーバーにデータを保存する必要なく継続的に改善されます。連合学習とは何か、どのように機能するかについて頭を悩ましている場合は、Googleがこの漫画を公開しました。.
連合学習のその他の利点
連合学習モデルは、プライバシーに加えて、ユーザーにいくつかの他の利点を提供します。サーバーと継続的にデータを共有する代わりに, 学習プロセスは、デバイスが充電され、wifiに接続され、使用されていないときに実行できます, ユーザーが直面する不便さを最小限に抑える.
これは、ユーザーが外出中に貴重なデータやバッテリーを浪費していないことを意味します。連合学習では、データ自体ではなく関連データの要約のみを転送するため、プロセスは、従来の学習モデルよりも全体的に少ないデータを転送することになります.
連合学習は、グローバルモデルとパーソナライズされたアルゴリズムモデルの両方を提供することもできます. より広範なユーザーグループから洞察を収集し、それらを個々のユーザーからの情報と組み合わせて、固有のニーズに合ったより効果的なモデルを提供できます。.
連合学習のアプリケーション
連合学習には、特に次のような状況で、幅広い潜在的なユースケースがあります プライバシーの問題は、アルゴリズムを改善する必要性と交差しています. 現時点では、最も顕著な連合学習プロジェクトがスマートフォンで実施されていますが、同じ手法をコンピューターや自律走行車などのIoTデバイスに適用できます.
既存および潜在的な用途には次のものがあります。
Google Gboard
現実の世界での連合学習の最初の大規模な展開は、 Googleのキーボードアプリケーション、Gboard. 同社は、この手法を使用して、ユーザーのプライバシーを損なうことなく単語の提案を改善することを目指しました.
古い機械学習アプローチでは、キーボードの予測を改善することは非常に侵襲的でした。入力したすべてのもの、プライベートメッセージ、奇妙なGoogle検索はすべて分析のために中央サーバーに送信しなければなりません。に使用できた.
ありがたいことに、Googleはフェデレーション学習アプローチを代わりに使用することを選択しました。アルゴリズムモデルはユーザーデバイスに配置されるため、ユーザーが入力した単語から学習し、重要な情報を要約してサーバーに送り返すことができます。. これらの概要は、Googleの予測テキスト機能を強化するために使用され、テストされてユーザーにプッシュされます.
新しいバージョンのアルゴリズムは、プロセスから学んだことのおかげで改善されたエクスペリエンスを提供し、サイクルが繰り返されます。これにより、ユーザーはプライバシーを侵害することなく、キーボードの提案を継続的に改善できます。.
健康管理
医療業界では、データのプライバシーとセキュリティは非常に複雑です。多くの組織は、機密データと貴重な患者データの両方を大量に保有しており、これもハッカーに強く求められています.
恥ずかしい診断が一般に漏れることを誰も望んでいません。これらのリポジトリに含まれる豊富なデータは、個人情報の盗難や保険詐欺などの詐欺に非常に役立ちます。大量のデータと医療業界が直面する大きなリスクのため, ほとんどの国は、健康データの管理方法に関する厳格な法律を実施しています, 米国のHIPAA規制など.
これらの法律は非常に制限されており、組織がそれらに違反した場合、重大な罰則が科せられます。これは一般的に、データが誤って処理されることを心配している患者にとっては良いことです。しかしながら, また、これらの種類の法律は、新しい医療のブレークスルーを支援する可能性のある研究で、ある種のデータを使用することを困難にします.
この複雑な法的状況のため、OwkinやIntelなどの組織は調査を行っています 連合学習を活用して患者のプライバシーを保護し、データを使用する方法.
Owkinは、 連合学習を使用して患者データを保護します 薬物毒性を決定し、病気の進展を予測し、まれなタイプの癌の生存率を推定する実験.
2023年、インテルはペンシルベニア大学の生物医学画像コンピューティングおよび分析センターと提携し、連合学習を概念実証として医療画像に適用する方法を実証しました.
コラボレーションにより、連合学習アプローチでは、特定のディープラーニングモデルを次のようにトレーニングできることが明らかになりました。 従来の方法で訓練された同じモデルと同じ99%の精度.
自動運転車
連合学習は、2つの主要な方法で自動運転車に役立ちます。 1つ目は、ユーザーデータのプライバシーを保護できることです。多くの人は、旅行記録やその他の運転情報が中央サーバーにアップロードおよび分析されるという考えを嫌います。. 連合学習は、このデータの要約でアルゴリズムを更新するだけでユーザーのプライバシーを強化できます, すべてのユーザー情報ではなく.
連合学習アプローチを採用するもう1つの主な理由は、潜在的に待ち時間を短縮できることです。道路上に多数の自動運転車が存在する将来のシナリオでは、安全事故の際に互いに迅速に対応できる必要があります。.
従来のクラウド学習には大量のデータ転送と学習ペースの低下が伴うため、次の可能性があります。 連合学習により、自動運転車がより迅速かつ正確に行動できるようになり、事故を減らし安全性を高めることができます.
規制の遵守
連合学習は、組織が患者データを公開したり、規制の間違った側面に追い込まれたりすることなく、アルゴリズムモデルを改善するのにも役立ちます。欧州の一般データ保護規則(GDPR)や1996年の米国の健康保険の携帯性に関する法律などの法律には、個人のデータとその使用方法に関する厳しい規制があります.
これらの法律は、一般に個人のプライバシーを保護するために設けられています。つまり、連合学習により、 データを安全に保ちながら学習する および規制ガイドライン内.
連合学習のセキュリティとプライバシー
連合学習は、データプライバシーを損なうことなく機械学習モデルをトレーニングするための新しい機会の世界を開きます。ただし、セキュリティの問題とユーザーデータを公開する可能性を軽減するために、慎重に実装する必要があります。.
主な問題のいくつかとその潜在的な解決策には、次のものがあります。
ユーザーデータの概要の傍受
適切なプライバシーとセキュリティを提供するには、通常、さまざまなテクノロジーとポリシーの組み合わせが必要です。連合学習はデータを保護する新しい方法を提供しますが、補完的なメカニズムとともに実装する必要があります.
潜在的な弱点の一例は、ユーザーのデータ概要がデバイスから中央サーバーに送信されると、それらを使用して元のデータを把握できるハッカーによって傍受される可能性があることです。.
ありがたいことに、この問題には比較的簡単な解決策があり、情報セキュリティの多くの分野で既に実装されています。2つのポイント間を移動するときに適切なアルゴリズムでデータを暗号化するだけです。.
ユーザーサマリーから元のデータを把握する
特定のシナリオでは、ユーザーデータの概要を使用して元の情報を判断できます。悪意のある当事者がAPIを介してモデルにクエリを送信すると、データを再構築できる可能性がありますが、これは連合学習に固有の問題ではありません.
攻撃者またはサーバーを所有する組織がこの方法で元のユーザーデータを把握できた場合、完全に 連合学習を実装する目的を破る. これを防ぐために、フェデレーション学習と一緒に展開できる2つの主要なメカニズムがあります。Googleのセキュアな集約プロトコルと差分プライバシー.
の 安全な集約プロトコル マルチパーティ計算を使用して、サーバーまたは他の関係者に単一の個人のデータサマリーを公開せずに、ユーザーデータサマリーのグループの平均を計算します。.
このシステムでは、各ユーザーサマリーはユーザーのデバイスを離れる前に暗号化され、追加されて他のユーザーサマリーの数と平均されるまでサーバーによって復号化できません。これにより、サーバーは、個人の個人データを明らかにするために使用できる個々の概要を公開することなく、ユーザー平均でモデルをトレーニングできます。.
セキュアアグリゲーションは、サーバーがユーザーサマリーにアクセスできないようにするだけでなく、 真ん中の男 はるかに困難な攻撃.
他のオプションは 差別的なプライバシー, これには、データに追加される特定の量のノイズを伴うさまざまな関連技術が含まれます。プライバシーの差別化の主な前提は、ユーザーのデータを非公開のままにするために、データベースへのクエリで、個人がデータに含まれているかどうか、また情報が何であったかを明らかにしないことです。.
クエリがこの情報を明らかにしないようにするために、いくつかの異なるオプションを使用してデータにノイズを追加できます。このデータノイズは、ユーザーのデバイスを離れる前に追加されるため、サーバーと攻撃者の両方が元の形式の更新プログラムにアクセスできなくなります。.
モデル中毒
連合学習は、敵がアルゴリズムモデルを「中毒」する機会を開きます。基本的に、これは 悪意のあるアクターがモデルを破壊する可能性があります 独自のデバイスを介して、またはアルゴリズムモデルのトレーニングに関与する他の関係者のデバイスを引き継ぐことによって.
これらの攻撃は、バグダサリアン他によって詳細に調査されました。彼らの 連合学習をバックドアする方法 論文。連合学習モデルでは、攻撃者は1人以上の参加者を引き継ぐ可能性があります.
特定のシナリオで, 彼らが引き継いだ各参加者のデータを制御することが可能です, そのデータがローカルでトレーニングされる方法を変更し、学習率や個々のモデルの重みなどのハイパーパラメーターを変更する(集約のためにサーバーに送信される前)。各参加者のローカルトレーニングへのアプローチをラウンド間で変更することもできます。.
これらの能力により、攻撃者は自分の目的に向けてアルゴリズムを変更できるバックドアを挿入できます。この調査の数値によると、モデルのポイズニングは、他のデータポイズニング攻撃よりもはるかに効果的でした。.
80,000人の参加者が関与する単語予測タスクでは、研究者はわずか8人の参加者を危険にさらすことで、バックドアの精度を50%達成できました。データを汚染することで同じ効果を達成するために、研究者は400人の参加者を妥協しなければならなかっただろう.
最大の問題の1つは、連合学習とSecure Aggregationプロトコルがユーザーデータを非公開にすることを目的としているという事実に由来します。. 正しく実装すると、サーバーは個々のユーザーの要約の異常を検出できなくなります.
前述したように、セキュアアグリゲーションプロトコルでは、ユーザーサマリーが他のユーザーデータと一緒に追加された後にのみユーザーサマリーにアクセスできます。要約を個別にスクリーニングすることはできないため、その中に存在する可能性のある異常を見ることは不可能になり、モデル中毒攻撃が侵入するのに最適な方法を提供します.
この段階では、これらの攻撃と可能な防御をより徹底的に調査する必要があります.
モデルをプライベートに保つ
洗練されたアルゴリズムモデルは数百万の価値があり、泥棒の標的になります。彼らはそれらを使用して、アルゴリズムの背後にある企業が行うのと同じ方法でお金を稼ぐことができます。泥棒が莫大な資金を投資してモデルを構築するのを防ぐだけでなく、元の.
企業は知的財産を保護する必要があり、モデルをユーザーのデバイスに直接送信するようです これらのモデルを簡単に取得したい人に公開される可能性があります. ただし、企業がアルゴリズムモデルを保護するために使用できるソリューションがあります.
これらの1つは マルチパーティ計算の秘密共有を活用する. これにより、組織はモデルの重みをデバイス全体に分散させることでモデルの重みを隠すことができます。このシステムでは、秘密保持者はモデル全体を知ることができません。.
これにより、組織は、知的財産が盗まれることを心配することなく、アルゴリズムトレーニングモデルをデバイスにプッシュできます。.
連合学習の制限
潜在的なセキュリティの問題に加えて、連合学習には、すべてのデータプライバシーの問題を解決するための魔法の薬となることを妨げる他の多くの制限があります。.
1つの考慮事項は、従来の機械学習方法と比較した場合, 連合学習では、モデルをトレーニングするためにローカルデバイスの電力とメモリが大幅に必要です. ただし、多くの新しいデバイスはこれらの機能に十分な能力を備えており、このアプローチにより、中央サーバーに転送されるデータの量がはるかに少なくなり、データ使用量が削減されます。多くのユーザーは、デバイスが十分に強力である限り、このトレードオフが有益であると感じるかもしれません.
別の技術的な問題には帯域幅が関係します。連合学習はwifiまたは4Gを介して行われますが、従来の機械学習はデータセンターで行われます。 wifiまたは4Gの帯域幅速度は、これらのセンターの作業ノードとサーバー間で使用される速度よりも低い.
デバイスの帯域幅は、長年の計算能力ほど急速に成長していないため、帯域幅が不足するとボトルネックが発生する可能性があります レイテンシーが増加し、学習プロセスが遅くなります 従来のアプローチと比較した場合.
デバイスの使用中にアルゴリズムのトレーニングを実施すると、デバイスのパフォーマンスが低下します。 Googleは、アイドリング、スイッチオン、コンセントへの接続時にのみデバイスをトレーニングすることでこの問題を回避しています。これで問題は解決しますが、 学習サイクルを遅くする, トレーニングはオフピーク時にのみ行うことができるため.
さらに課題は、トレーニングプロセス中にデバイスが脱落することです。所有者がデバイスを使用したり、電源を切ったり、その他の混乱を招く可能性があります。ドロップアウトしたデバイスのデータは適切に使用できない可能性があり、これによりアルゴリズムモデルの精度が低下する可能性があります.
連合学習は機械学習の新しい方法を前進させます?
連合学習は比較的新しいトレーニングモデルであり、さまざまなアプリケーションでの可能性を示しています。まだ比較的初期の研究段階にあるため, 考えられるすべての用途を決定するには、プロセスにさらに多くの研究が必要です, 直面している潜在的なセキュリティとプライバシーのリスク.
それまでは、このアプローチが将来どれだけ広く実施されるかを確実に言うことは困難です。幸いなことに、GoogleのGboardを使用して、現実の世界で効果的に展開されているのを既に見ています.
ただし、前述の制限のいくつかのため、すべてのシナリオでフェデレーション学習が従来の学習モデルを置き換えることはほとんどありません。将来は、私たちの主要なテクノロジー企業が本当にプライバシーにどれだけコミットしているかにも依存します。この段階では、懐疑的である正当な理由があります.
こちらもご覧ください: 2023年のデータ侵害統計