مشاهدة النسخة كاملة : كل ما يخص ملف robots.txt


Sherif kenzo
04-17-2008, 12:48 PM
إخفاء صفحاتك المهمة عن جوجل Google و محركات البحث الأخرى

مع تقدم خدمات الأرشفة index و البحث أصبح جوجل أكثر دقة و قدرة على أرشفة و فهرسة الصفحات و بالتالي أصبح قادرا على الوصول إلى معلومات مهمة قد لا ترده الوصول إليها مثل أرقام الهواتف و أرقام بطاقات الائتمان. و بالتالي تقدم للها كرز المعلومات على طبق من ذهب . و بهذه الطريقة هي لا تحتاج إلى مخترق خبير فمن الممكن أن يصل إليها حتى الشخص العادي المبتدأ بواسطة جوجل فقط .

بالرغم من أن معظم حالات سرقات بطاقات الائتمان تتم عن طريقة سرقة قواعد البيانات إلا أننا لا نستطيع إغفال خطورة الوضع .

هل يجب أن نلوم جوجل؟

وجل أو ما يسمى Google spider يقوم بعمله فقط . جوجل لا يفهرس الصفحات عنوه لكنه يفهرس صفحات الإنترنت ووضعك للمعلومات الحساسة و المهمة على شبكة الإنترنت بدون حماية خطأك وحدك .و حماية هذه المعلومات مسئوليتك .

استخدم ملفات robots.txt

هذه بالتأكيد أحد أهم الأدوات و هو ملف صغير نصي ترفعه إلى مستضيفك يحوي على الملفات و المجلدات التي يستطيع أو لا يستطيع إلى محرك بحث و ليس جوجل فقط فهرستها .في الخطوة التالية سنستعرض محتويات الملف .

حذف ملفاتك المهمة من جوجل

لو وقع الفأس في الرأس و فهرس جوجل صفحات مهمة و حساسة في موقعك يمكنك إزالتها عن طريق عدد من الخطوات مذكورة هنا

[سجل معنا ليظهر الرابط] ([سجل معنا ليظهر الرابط])

سأحاول ترجمتها على عجالة ( أو استخلاص المفيد منها )

حذف موقعك بالكامل من جوجل أو محركات البحث الأخرى

لمنع كل محركات البحث من أرشفة موقعك ضع الكود التالي في ملف robots.txt

User-agent: *
Disallow: /

لمنع جوجل فقط من أرشفة صفحات موقعك .

User-agent: Googlebot
Disallow: /

كل بورت port يحتاج لملف robots.txt خاص له مثلا http تحتاج لملف و [سجل معنا ليظهر الرابط] يحتاج لملف و ftp يحتاج ملف و هكذا .

إزالة صفحة واحدة من جوجل .

هناك طريقتان :
أولا : ملف robots.txt

بعد جملة user-agent يمكنك ان تحدد محرك بحث بعينه مثلا googlebot أو يمكنك أن تضع * لمنع جميع محركات البحث .

الأمثلة التالية على تمنع جميع محركات البحث لكن يمكنك استبدال googlebot بـــ * لمنع جميع محركات البحث .
لمنع فهرسة مجلد
User-agent: Googlebot
Disallow: /lemurs

لمنع فهرسة نوع معين من الملفات مثلا الصور من نوع gif

User-agent: Googlebot
Disallow: /*.gif$

لمنع فهرسة الصفحات الديناميكية مثل index.php?task=anything

User-agent: Googlebot
Disallow: /*?

ثانيا : الميتاتاج met tag

لمنع فهرسة صفحة معينه نضع التالي في منطقة الرأس بين <head> و </head>

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">


لمنع جوجل فقط من فهرسة هذه الصفحة نضع

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">


للسماح بفهرسة الصفحة و لكن عدم فهرسة الصفحات المربوطة بها


<META NAME="ROBOTS" CONTENT="NOFOLLOW">


حذف الوصف snippets

عند إظهار جوجل للنتائج فإنها تظهر وصف snippets تحت كل موقع لحذفه

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">


حذف النسخ المخزنة cached pages

جوجل تحتفظ بنسخة من صفحات موقعك في قواعدها لمنع ذلك
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">


حذف صورة من محرك بحث جوجل للصور .[

جميع الأمر تطبق عليها لكن اسم الروبوت هنا Googlebot-Image و ليس googlebot
لحذف صورة معينة أضف في ملف robots.txt
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

لمنعه من فهرسة جميع صور موقعك
User-agent: Googlebot-Image
Disallow: /

ما مدى درجة الأمان لهذه الملفات ؟

ملف robots.txt ليس وسيلة حماية يمكن الاعتماد عليها لحماية موقعك . في الحقيقة هي أقرب لوحة ممنوع الدخول على الباب و ليست قفلا عليها.لذلك عليك تأمين موقعك جيدا و حماية مجلداتك بكلمات مرور أو منع الدخول بواسطة ملفات htaccess .

ملاحظة أخيرة

هناك عدد من السبايدر spiders الخاصة بشركات تجمع البريد الإلكتروني من المواقع لترسل لك و لغيرك رسائل غير مرغوب بها spam يمكنك أيضا إيقافها مثل
EmailCollector و EmailSiphon و EmailWolf و ExtractorPro و Titan

Sherif kenzo
06-13-2011, 02:51 PM
يرفع للأهمية