[Обновление - через несколько дней после публикации статьи Google исправила ошибку атрибуции. Bing тоже окончательно исправил атрибуцию, но задержка была намного дольше. Так что я по-прежнему считаю, что это отличный пример. Спасибо всем, кто сказал Google, что ошибался!]

Я провел некоторое исследование того, как сети знаний извлекают факты из текстовых документов для обобщения информации. Я был весьма удивлен, обнаружив, что самая первая цитата моего героя Чарльза Дарвина была неправильной. В правом поле Google (называемом сводкой InfoBox) первая цитата - это то, о чем Дарвин никогда не говорил. Вот цитата:

Выживают не самые сильные и не самые умные из видов, а тот, кто лучше всех реагирует на изменения.

Можно было бы подумать, что Google, будучи уважаемой компанией, проведет небольшую проверку фактов, чтобы подтвердить первую цитату одной из самых важных фигур в науке. Неправильный!

Я хорошо знаю эту цитату, потому что часто использую ее в своих слайдах о выборе базы данных. Просто замените слово виды на архитектура базы данных, и вы получите картину. Это также относится к компаниям, школам и бизнес-стратегиям. Эта цитата действительно лежит в основе гибкости бизнеса. Но Дарвин никогда этого не говорил. Автором был Леон К. Меггинсон, профессор бизнеса, который сказал это в 1963 году [1].

Теперь давайте посмотрим на сводку информационного окна Википедии о Дарвине:

Вы заметите несколько важных различий между сводкой Google и сводкой Википедии. В обоих сводках указаны даты рождения и смерти. Это хорошо. Человек (а), создавший информационное окно в Википедии, решил, что наиболее важными фактами являются не имена детей Дарвина, а ссылки на его новаторские книги: «Путешествие гончей» и «Происхождение видов». Они правильно поняли! И в статье в Википедии нет неправильной цитаты. Поклонники Дарвина следят за этой страницей, чтобы убедиться, что она точна и заслуживает доверия. Спасибо авторам и редакторам Википедии!

Так почему же Википедия сделала это правильно, а Google потерпел неудачу? Ответ заключается в том, что информационное окно Google было полностью создано с помощью машинного обучения. Сканеры Google сканируют каждый документ в Интернете, разбирают предложения с помощью инструментов обработки естественного языка и находят такие имена, как «Чарльз Дарвин». Они создают граф с единственным «Узлом» для Чарльза Дарвина. Затем они добавляют факты к этому узлу как новые дуги к другим узлам. Некоторые дуги относятся к типу «цитата» и указывают на узел с цитатой в тексте. График плавно увеличивается по мере сканирования каждой новой страницы. Чем больше отсканировано страниц, тем крупнее график. Ходят слухи, что на графике Google около 85 миллиардов фактов. Очень круто! Правильно?

Однако, поскольку эта цитата была неправильно приписана Дарвину давным-давно, ошибка продолжает распространяться по Интернету, как вирус. Тот факт, что Google использует это как самую первую цитату на странице Дарвина, даже показывает силу этой цитаты. Это действительно похоже на то, что мог бы сказать Дарвин. Теперь каждый младший школьник, который набирает «Чарльз Дарвин» в поисковой системе Google, будет копировать и вставлять его в свой школьный отчет и свой блог Tumbler, который, в свою очередь, будет обнаружен поисковой системой Google, и рейтинг продолжит расти. вверх. Вероятность того, что Google прав, становится еще сильнее. Бесконечный цикл лжи и фейковых новостей.

Однако есть один важный момент, который мы должны прояснить. Ошибка возникает не из-за архитектуры графа. Виноваты ограничения алгоритмов машинного обучения. Они вслепую ищут текст, и чем больше текста они получают, тем выше рейтинг цитаты. В правиле статистики Google.

Честно говоря, у Google есть ссылка обратная связь в нижней части информационного окна. Вы можете щелкнуть по нему, и он помещает каждый «факт» в список выбора, и вы можете выбрать факт, который, по вашему мнению, является неправильным, и объяснить, почему они ошибаются. Однако, несмотря на то, что я это сделал, цитата все еще там. В Google машины управляют отзывами людей. Google может также сказать, что они на самом деле не утверждают, что Дарвин действительно сказал это - только то, что эта цитата наиболее тесно связана с тем, что Дарвин должен был сказать! Правильно?

Вот главный вывод. Как архитектор баз данных, всякий раз, когда мы используем машинное обучение для извлечения фактов, мы должны помнить одну из тех буквенных обозначений «V», связанных с данными - объем, скорость, разнообразие и достоверность. Правдивость - это соответствие фактам - точность наших данных. Нам нужны способы подтвердить, что факты, которые мы извлекаем из текста и помещаем в наш график, действительно правдивы. Многие проекты с благими намерениями терпят неудачу из-за низкого качества данных. Только после того, как системы машинного обучения смогут действительно искать в дарвиновских коллекциях и искать статьи на таких сайтах, как quoteinvestigator.com, чтобы проверить их работу, мы сможем доверять резюме Google больше, чем резюме WikiPedia. А пока остерегайтесь множества компьютерных сетей знаний! Перепроверьте свои факты с другими источниками - и Википедия - хорошее место для начала.

И еще одна последняя просьба. Пожалуйста, сделайте так, чтобы ученые Леона Меггинсона и Дарвина во всем мире поддерживали и продолжали говорить Google, что они напортачили! Возможно, если мы все сделаем это, мы сможем исправить эту пародию на атрибуцию одной из величайших цитат нашего времени.

Спасибо! - Дэн