セキュリティ研究者は、かつて公開されていたが、それ以来プライベートになっている数千のGithubリポジトリが、Github CopilotのようなAI搭載ツールを介してアクセス可能であることを発見しました。この問題は、インターネット上のデータ露出の永続的な性質を強調しています。この場合、情報は、たとえ一時的に公開されても、制限されてからずっと生成AIシステムによって保持および利用できることを強調しています。
Github Copilotは、OpenaiおよびMicrosoftと共同でGithubが開発したもので、コードスニペットと開発者への完了を提案するAIベースのコーディングアシスタントです。これは、公開されているコードの広大なコーパスで訓練されており、文脈的に関連する提案を提供できるようにしています。ただし、このトレーニングデータには、トレーニング時に公開されていたがその後はプライベートになっているリポジトリからのコードが含まれています。その結果、Copilotは、これらの現在のリポジトリのコンテンツに基づいてコード提案を生成する場合があります。
参照:NordVPNアプリはTVOSで起動し、安全なストリーミングとプライベートブラウジングを提供します
この状況は、データのプライバシーとセキュリティに関する大きな懸念を提起します。公開リポジトリの機密情報を不注意に公開した開発者は、短期間であっても、このデータがAIモデルによって摂取されており、Copilotなどのツールを介して間接的にアクセスできることを発見する可能性があります。これは、コードを公に共有する際に注意を払うことの重要性と、オンラインで公開された情報を完全に撤回するという課題を強調しています。
これらの懸念に応えて、GitHubはAIに生成されたコード提案に対する透明性と制御を強化する機能を実装しています。たとえば、Visual Studioは、Github Copilotの完了のコード参照をサポートしているようになり、開発者が提案がパブリックコードに基づいているかどうかを確認できるようになりました。この機能は、発見されたパブリックコードの一致に関する詳細な情報を提供し、開発者がプロジェクトに提案されたコードを組み込むことについて情報に基づいた決定を下すことができます。
これらの措置にもかかわらず、このインシデントは、データの永続的な性質を公開したことを思い出させるものとして機能します。開発者は、それを公開する前に機密情報についてコードを徹底的に確認し、リポジトリのプライベートを作成した後でも、以前のパブリックデータでトレーニングされたAIツールを介してアクセスできる可能性があることに注意することをお勧めします。
ソース:TechCrunch
