たとえば、eHow.comのサイトに、ある建築業界向けのソフトウェアのトラブルシューティングについての記事が掲載されています。しかし内容を見ると、単に「ソフトウェアをアンインストールして、Windows を再起動して、必要なら再インストールして」と、中身は至って普通のことしか書いてありませんでした(つまり、その記事のソフトウェアの部分を別のキーワード(たとえばMS Office や Adobe Acrobat など)に置き換えていくことで、無限に大量のコンテンツを生成することが可能になることも示している)。
あるいは、靴ひもの結び方について、最初のステップが「靴を履いていることを確認しましょう」で始まっているといった具合です。プラスチックの箱に穴が開いた時の修復方法についてのTIPSに至っては「テープで貼ろう」と、アイデアの欠片もない情報です。
コンテンツ自体の重複も目立ちます。内容はほぼ同一なのに、検索クエリにあわせてワーディングを変更したタイトルをつけることで、カバレッジ(表示数/検索キーワードのバリエーション)を増やしているのです。これらは実質的に重複・複製コンテンツです。
つまり、確かにコンテンツ(=文字情報)はあるし、キーワードとの関連性は(文字列上は)高い、従って関連する検索クエリで検索上位に表示されやすいしのですが、人間の目から見ると低品質(low-quality content)なわけです。ところがGoogleは、コンテンツが文字列的にキーワードとの関連性の程度を判断することができても、それの質(ユーザにとって有益となりうる情報なのか)は判断することができません。特にDemand Mediaネットワークの場合、日々大量のコンテンツがオンラインに公開され、増殖している以上、従来のランキングアルゴリズムでは「非常に優れたサイト」(authority site)と判断するしかないのです。