by Arhangel on 05-11-2007

Готова новая, уже 4-я по счету версия доргена. Теперь доргеном занимаюсь не я один, к разработке подключился An@rhist и очень здорово помог мне с сишным модулем разбора английского текста по частям речи.

Что нового? В первую очередь это конечно новый алгоритм генерации текста на основе шаблонов предложений. Суть его состоит в парсинге исходного тематического текста из популярных каталогов статей (сейчас 10 штук) и сайтов из выдачи Гугла, далее из текста выделяются отдельные шаблоны предложений и конечный текст генерится уже из этих шаблонов. Качество конечного текста очень хорошее.

Далее встроил в дорген пингатор, сейчас тестируем его. Без спама все равно конечно не обойтись но пингатор штука нужная и полезная. Кроме того реализован также пинг файлов sitemap.xml в поисковики.

Расширена работа с RSS. Теперь к примеру можно использовать такой тег {RSS[50][{DOORKW}]} в результате в дорвей будет вставлено 50 новостей по кейворду {DOORKW} с гугла\яху\мсн вперемешку, это реализовано на yahoo pipes поэтому от нас идет всего один запрос а все новостные фиды парсятся на стороне yahoo. Тоже самое с тегом {SERP[Nmin-Nmax][Q]}, теперь выдача поисковиков также парсится через yahoo pipes.

Ну и по мелочи еще много всего, кое что вообще убрал например парсинг картинок, так как по опыту скажу что лучше отобрать кликабельные картинки вручную если хотите поиметь хорошего трафа с поиска по картинкам.

Большей части пользователей новую версию уже выслал, если кого забыл велком в асю.



Comments:
alexf2000 on 08-11-2007 at 02:46

Парсить текст из выдачи гугла это не очень правильно, поскольку по некоторым темам выдача загажена дорами. То есть основная фича доргена - генерация квази-читабельного текста не будет работать, если в качестве исходного текста будет взята марковская лапша. :) Дорген сам вроде выглядит неплохо, но хотелось бы понять какой входной текст во что превращается на выходе.


Arhangel on 08-11-2007 at 06:09

Вот поэтому парсинг из выдачи гугла отключаемый. То есть при желании можно использовать парсинг текста только из каталогов статей. Конечный текст можно посмотреть на тех дорах что в демке.


alexf2000 on 19-04-2008 at 15:05

Хотел ещё раз посмотреть, но что-то не нашёл где в демке доры? Как именно готовую страницу дора посмотреть и исходный текст для неё?


You must be logged in to post a comment.