Перейти к публикации

Рекомендованные сообщения

Нужен парсер на DLE 17, php 8.2 по типу RSS Grabber.
Чтобы можно было настроить парсинг кода с любого сайта (если в коде есть данные), настраивать шаблоны для парсинга, чтобы можно было брать конкретные данные и вставлять в краткую и в полную новость, при этом вписывая в определённый текстовый шаблон.

Если есть готовое решение - готов рассмотреть покупку.
Если нет - готов рассмотреть варианты написания плагина.

Также есть Content Downloader, возможно кто-то возьмётся за интеграцию его с DLE, чтобы можно было заливать напрямую в него.

Ссылка на сообщение
Поделиться на других сайтах

Есть: ZennoPoster, BAS, A-Parser, Datacol. 

Есть: Python + Selenium + ChatGPT. 

Лучше пользоваться уже готовыми решениями чем изобретать велосипед. Ваш php и ТЗ вряд ли содержит все возможные развитие ситуации, на подобие "бан ip, защита от ботов, защита от парсеров, защита Cloudflare" и т.д.

Ссылка на сообщение
Поделиться на других сайтах
17.11.2023 в 07:02, Хоббит сказал:

Ваш php

А вы топите за Python находясь на сайте DLE?)

Не усложняйте, не прочитав ТЗ, вдруг там нет ни бана по ip, защиты от ботов, от парсеров и Cloudflare.

 

Ссылка на сообщение
Поделиться на других сайтах
18.11.2023 в 19:54, webair сказал:

А вы топите за Python находясь на сайте DLE?)

Не понял при чем тут DLE? 🤔

Для подобных задач как у ТС следует использовать самые простые, и самые эффективные способы реализации, не мне новичку писать подобное. 

Я не программист, но я понимаю что ChatGPT генерирует код на Python лучше чем на других языках.

18.11.2023 в 19:54, webair сказал:

Не усложняйте, не прочитав ТЗ, вдруг там нет ни бана по ip, защиты от ботов, от парсеров и Cloudflare.

Всё, что должно произойти, обязательно произойдёт, как бы вы ни старались этого избежать. (c)

Ссылка на сообщение
Поделиться на других сайтах
52 минуты назад, Хоббит сказал:

Я не программист

Это самое потрясающее мнение 🤣 Я не программист, но я лучше знаю 🤣

Ссылка на сообщение
Поделиться на других сайтах
1 час назад, alex32 сказал:

Это самое потрясающее мнение 🤣 Я не программист, но я лучше знаю 🤣

А что в этом смешного?) У вас есть опыт обслуживания 2000 разных парсеров? 

Ссылка на сообщение
Поделиться на других сайтах
2 часа назад, Хоббит сказал:

А что в этом смешного?) У вас есть опыт обслуживания 2000 разных парсеров? 

Только какое отношение это имеет к языкам программирования? Парсинг это по своей сути поиск по регулярному выражению. Чем регулярка на Python лучше чем на PHP? Да и вообще чем она будет отличаться? Регулярное выражение оно и в африке останется регулярным выражением, и совершенно не важно в каком языке программирования она будет использоваться.

Ссылка на сообщение
Поделиться на других сайтах
6 часов назад, Хоббит сказал:

А что в этом смешного?) У вас есть опыт обслуживания 2000 разных парсеров? 

У меня есть, я их сам делаю. А вот вы даже примерно понятия не имеете, что и как происходит. Но при этом вы "знаете". Лол 🤣

3 часа назад, celsoft сказал:

Только какое отношение это имеет к языкам программирования? Парсинг это по своей сути поиск по регулярному выражению. Чем регулярка на Python лучше чем на PHP? Да и вообще чем она будет отличаться? Регулярное выражение оно и в африке останется регулярным выражением, и совершенно не важно в каком языке программирования она будет использоваться.

Он не программист, он не знает, что такое "регулярное выражение". Но зато он знает, что такое ChatGPT 

Ссылка на сообщение
Поделиться на других сайтах

 

21 час назад, celsoft сказал:

Только какое отношение это имеет к языкам программирования? 

Это вы спросите у webair, при чем тут я? Я делаю парсеры на python потому что мне так удобно, и опыт не привязан к конкретному языку.

21 час назад, celsoft сказал:

Чем регулярка на Python лучше чем на PHP?

Вы это спрашиваете у человека который не разбирается в тонкостях языков программирования? 

21 час назад, celsoft сказал:

Да и вообще чем она будет отличаться?

Так речь идет не об этом, а том в каком языке лучше всего реализовать ту или иную задачу.

Вы верно подметили, php и python оба могут реализовать нужные нам результаты, но, вы же не будете обращаться к хирургу когда болит зубы? 

21 час назад, celsoft сказал:

Регулярное выражение оно и в африке останется регулярным выражением, и совершенно не важно в каком языке программирования она будет использоваться.

Опять же, мне не нужно ехать в Африку чтобы понять жарко там или нет, достаточно найти готовые кейсы под Python и PHP, после чего адаптировать код под мой нужды, и делать выводы. В моем случае нейросеть генерирует код на Python лучше чем на PHP, при чем на порядок: от "качество" до количество "ошибок". И факт: Python дружелюбнее новичкам относительно PHP.

 

18 часов назад, alex32 сказал:

У меня есть, я их сам делаю. А вот вы даже примерно понятия не имеете, что и как происходит. Но при этом вы "знаете". Лол 🤣

Хорошо.

Изменено пользователем Хоббит
Ссылка на сообщение
Поделиться на других сайтах
3 минуты назад, Хоббит сказал:

Так речь идет не об этом, а том в каком языке лучше всего реализовать ту или иную задачу.

Это я понимаю, то python для этой конкретной задачи чем лучше? Если говорить о простоте реализации и использования python ге даст преимуществ в этой задаче никак.

4 минуты назад, Хоббит сказал:

Вы верно подметили, php и python оба могут реализовать нужные нам результаты, но, вы же не будете обращаться к хирургу когда болит зубы? 

Верно, и если человек использут DLE и хочет спарсенные новости прикручивать к сайту на DLE, то "притаскивать за уши" для этого python ... ну это как минимум странно.

6 минут назад, Хоббит сказал:

В моем случае нейросеть генерирует код на Python лучше чем на PHP, при чем на порядок: от "качество" до количество "ошибок". И факт: Python дружелюбнее новичкам относительно PHP.

Не будучи программистом, вы не можете оценивать качество. Это странно что вы сами говорите что не знаете тонкостей, и при этом оцениваете качество. Более того если нейросеть хуже обучена одному языку относительно другого, это не значит что другой язык нужно тянуть и смешивать с другими. Это тоже очень странная логика делать это. Код должны писать программисты, и могут для этого использовать нейросети для облегчения той или иной рутины, но когда не программист дает рекомендации на основе того что ему написала нейросеть, по его не "программистким " запрососам к ней. Это странно. Как можно оценивать знание нейросетью языка программирования, если вы не знаете тонкостей языка и не знаете как правильно ей нужно задать вопрос в данном случае? Или вы неправильно задав вопрос, получив неправильный ответ делаете уже вывод, что значит другой язык лучше? Это странная и непонятная мне логика.

12 минут назад, Хоббит сказал:

И факт: Python дружелюбнее новичкам относительно PHP.

Вообще не факт. У них одинаковый уровень вхождения. Не вижу никакой разницы вообще и тот и тот достаточно прост. Да и вообще любой язык прост, если понять его базовую структуру.

Ссылка на сообщение
Поделиться на других сайтах
16 минут назад, celsoft сказал:

Это я понимаю, то python для этой конкретной задачи чем лучше? Если говорить о простоте реализации и использования python ге даст преимуществ в этой задаче никак.

Это если знать язык, и самому программировать код. 

18 минут назад, celsoft сказал:

Верно, и если человек использут DLE и хочет спарсенные новости прикручивать к сайту на DLE, то "притаскивать за уши" для этого python ... ну это как минимум странно.

Не странно: 

1. Я не предусматривал использование боевого сервера для парсинга, не говоря уже о установке python на сервер сайта.

2. Ну сделаете вы php парсер на боевом сервере сайта, а что если сервер сайта не сравнится с мощностью домашнего ПК? БД, Панель, прочие ПО начнут тормозить или даже даст сбои если запустить парсер, допустим 10-30 потоков Selenium? Не каждый арендует dedicated с современным камнем и 32 ГБ ОЗУ.

И условия типа: "чтобы спарсить сайт нет необходимости использовать Selenium" не принимаются, потому что для таких задач хватает ContentDownloader, Datacol.

3. Опять же, учитывайте что владелец сайт не разбирается в программировании, в случае чего ему придется обратиться к автору парсера, или же найти фрилансера. И не факт что автор парсера/фрилансер возьмётся за работу, например нужно спарсить сайт использующий Data Poisoning, в этом случае проблематично развернуть программы Windows для распознавания данных.

Этих же проблем не будет если использовать Python на домашнем ПК. 

4. Еще раз отмечу: владелец сайт не разбирается в программировании. Если он захочет сам доделать/исправить код парсера используя нейросеть то выскочит другая проблема: нейросеть не заточена под PHP, результаты на Python получается намного легче, быстрее, без лишних убитых нервов. 

33 минуты назад, celsoft сказал:

Не будучи программистом, вы не можете оценивать качество.

Но это не отменяет того факта что нейросеть выдает лучшие результаты на Python с меньшими ошибками.

Неужели мне придется изучить программирование, только чтобы понять какой из кодов сгенерированных нейросетями выдает меньше ошибок, и более приближен к нужному мне результату? 

38 минут назад, celsoft сказал:

Более того если нейросеть хуже обучена одному языку относительно другого, это не значит что другой язык нужно тянуть и смешивать с другими. Это тоже очень странная логика делать это.

Одно другому не мешает, DLE не монолитная система, захочу: могу использовать Pyhon + Seleium + ChapGPT + MySQL импорт.

Та же комбинация но уже с PHP будет более проблемно в процесса доработки/апгрейда, только потому что нейросеть не заточена подл PHP. 

50 минут назад, celsoft сказал:

Как можно оценивать знание нейросетью языка программирования, если вы не знаете тонкостей языка и не знаете как правильно ей нужно задать вопрос в данном случае?

Я уже ответил на этот вопрос, и да, речь идёт не об оценке кода, а о понимании лучшего результата ИИ с минимальными ошибками. 

1 час назад, celsoft сказал:

Или вы неправильно задав вопрос, получив неправильный ответ делаете уже вывод, что значит другой язык лучше?

Промт одинаковый, ChapGPT4. Престаньте сравнивать языки, учитывайте контекст задачи.

1 час назад, celsoft сказал:

Вообще не факт. У них одинаковый уровень вхождения. Не вижу никакой разницы вообще и тот и тот достаточно прост. Да и вообще любой язык прост, если понять его базовую структуру.

А это вообще очевидное, разработчикам разбирающимся в нескольких языках легче изучить другие языки т.к. уже изученные знания и понимание, опыт работает как мост. Это я знаю.

Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, Хоббит сказал:

1. Я не предусматривал использование боевого сервера для парсинга, не говоря уже о установке python на сервер сайта.

Вы то здесь причем? Автор топика написал кокретную задачу, которую ему надо решить. Ваши то задачи к его какое отношение имеют? А вы ему начали предлагать решения которые совершенно никак не решают его задачу и проблему.

4 минуты назад, Хоббит сказал:

3. Опять же, учитывайте что владелец сайт не разбирается в программировании, в случае чего ему придется обратиться к автору парсера, или же найти фрилансера.

Автор топика его и ищет, он и создал для этого тему и вы ему в этом никак не помогли, и ваши советы ему бесполезны, по причине того что не решают задачи.

5 минут назад, Хоббит сказал:

Но это не отменяет того факта что нейросеть выдает лучшие результаты на Python с меньшими ошибками.

Факт установленный кем? Вами? Так вы не эксперт в данном вопросе. Я например не считаю это фактом.

6 минут назад, Хоббит сказал:

Одно другому не мешает, DLE не монолитная система, захочу: могу использовать Pyhon + Seleium + ChapGPT + MySQL импорт.

Ну ну. Я как программист уже скажу что это бред. А когда делают такой бред приходят потом ко мне в тех. поддержку, с вопросом а как же так, а почему не работает. Да потому что MySQL импорт без соблюдения связей, который невозможно соблюсти одними MySQL запросами. И соответственно банальный MySQL импорт не будет работать на 100% корректно. И спорить с этим со мной глупо, потому что я программист и я сделал DLE и знаю его от и до, со всеми тонкостями и нюансами, о которых вы не знаете и даже не подозреваете.

11 минут назад, Хоббит сказал:

Неужели мне придется изучить программирование, только чтобы понять какой из кодов сгенерированных нейросетями выдает меньше ошибок, и более приближен к нужному мне результату? 

Если вы собираетесь это утверждать об этом "как о факте" как вы это делаете выше. То да придется. А как вы хотели. Иначе ваше утверждение ложно. Почему оно ложно, потому что я смогу это сделать без ошибок. А если я смогу, будет ли это означать что сеть знает PHP хуже? То что не смогли вы и те ошибки с которыми столкнулись вы не указывают за лучшее знание или худшее. Это означает лишь только то вы с этим столкнулись и не более.

22 минуты назад, Хоббит сказал:

Промт одинаковый, ChapGPT4. Престаньте сравнивать языки, учитывайте контекст задачи.

Написанный кем? Вами? Или вы думаете что вы пишите также как и я? )))) Или ваш промт идеальный и иного не может быть?

В том то и дело что я учитывают именно контекст задачи, понимаю что нужно делать, и что можно для этого задействовать поэтому не даю рекомендаций автору топика про Pyhon + Seleium + ChapGPT + MySQL импорт, прекрасно понимая что там впереди куча проблем и ошибок как следствие и потом он придет ко мне с вопросом почему DLE не работает корректно с его контентом на сайте. А мне оно надо? Я хочу чтобы он не сталкивался с проблемами, а значит если и получил результат, то корректный. И мне в будущем меньше работы.

Ссылка на сообщение
Поделиться на других сайтах
2 часа назад, Хоббит сказал:

2. Ну сделаете вы php парсер на боевом сервере сайта, а что если сервер сайта не сравнится с мощностью домашнего ПК? БД, Панель, прочие ПО начнут тормозить или даже даст сбои если запустить парсер, допустим 10-30 потоков Selenium? Не каждый арендует dedicated с современным камнем и 32 ГБ ОЗУ

Видимо вы не учли тот факт что Python работает прилично медленнее и потребляет больше ресуров при выполнении одинаковой работы чем тот же PHP. Так что ваш пример как то неубедителен. И если уж говорить только с точки зрения производительности то Python тоже проигрывает. PHP не только на удаленных серверах работает но и домашнем ПК и и из консоли, да как угодно, если вы не знали конечно этих тонкостей, так что код на PHP отработает быстрее и меньшим количеством ресуров, и также в много потоке если нужно. Браузер лишь одна из точек обращения к нему и запуска, не более того, но не ограничивается браузером.

Ссылка на сообщение
Поделиться на других сайтах
20.11.2023 в 16:09, alex32 сказал:

У меня есть, я их сам делаю. А вот вы даже примерно понятия не имеете, что и как происходит. Но при этом вы "знаете". Лол 🤣

Он не программист, он не знает, что такое "регулярное выражение". Но зато он знает, что такое ChatGPT 

Так, Александр! У нас с вами ещё незаконченный проект, с которого вы уже больше года назад слились, но отвечать по темам вы горазды)))

Ссылка на сообщение
Поделиться на других сайтах
17.11.2023 в 07:02, Хоббит сказал:

Есть: ZennoPoster, BAS, A-Parser, Datacol. 

Есть: Python + Selenium + ChatGPT. 

Лучше пользоваться уже готовыми решениями чем изобретать велосипед. Ваш php и ТЗ вряд ли содержит все возможные развитие ситуации, на подобие "бан ip, защита от ботов, защита от парсеров, защита Cloudflare" и т.д.

На сколько я узнал у автора, там данные надо получать по API. Всё что вы написали, не нужно. Говорю же, не бегите впереди паровоза :)

Ссылка на сообщение
Поделиться на других сайтах

Self Parser посмотрите . Единственное автор этого парсера закрыл сайт где он раньше размещался и рабочие ли версии которые сейчас предлагаются в интернете я не могу вам точно сказать.

Изменено пользователем ZzzBep
Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

×
×
  • Создать...