OpenAIのウェブクローラー「GPTBot」をブロックすることが可能に
自身のウェブサイトをクローリングされたくない人は、robots.txtに追記しよう
ChatGPTのGPTBotクローラーがブロック可能になった。OpenAIによると、GPTBotのユーザーエージェントは以下のとおり。
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
OpenAIによると、GPTBotでクローリングされたウェブページは、有料記事、個人を特定できる情報(PII)の取得、OpenAIのポリシーを違反するテキスト情報がフィルタリングされた上で、将来的に新しい言語モデルの改善に役立てられる。ウェブページのクローリングを許可することで、AIの正確性の向上、可能性の拡大、安全性の向上に貢献できると説明している。
robots.txtに記載する、GPTBotをブロックする記述は以下のとおり。
User-agent: GPTBot Disallow: /
特定のディレクトリを許可する場合は、以下のように記載する。
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
AIの学習目的で情報の収集を行う行為は、多くの議論を呼んでいる。
もっと読む
2023.03.24
2023.03.23
2023.03.15
2014.12.16
2014.01.12
コメント(0件)