ManHack, вы себе это как представляете? Предположим, что поиск выполняется не по всему инету, а, скажем, по крошечной доле. Хотя бы в 100 млн. сайтов. С каждого сайта нужно слить килобайт по 100 текста (где-то больше, где-то меньше). Я про уже обработанный текст. Итого: для такой малюсенькой доли интернета вам понадобится 10 ТБ дисковой памяти. Примерно столько же оперативной (нам же быстрый поиск по базе данных нужен). Представьте какие вычислительные мощности, чтобы на каждый запрос всю эту базу обрабатывать...
В общем, дешевле будет
купить у яндекса разрешение на использование результатов его БД в XML-формате и форматировать их по своему усмотрению. Будет якобы ваш поисковик.