Математика больших данных и машинное обучение

Я начну с базовой концепции круга, с математической точки зрения, это все точки, равноудаленные от определенной точки, это основная концепция круга, на которой выросли многие из нас. может написать уравнение идеального круга, мы знаем, что таких вещей на самом деле не существует в природе. В природе нет настоящего идеального круга. Если мы нарисуем один и увеличим масштаб, он будет иметь пиксели, если мы увеличим масштаб больше, он будет выглядеть не как круг, а как набор блоков. Таким образом, процесс аппроксимации прямо там, где у нас есть математическое понятие идеального круга, но мы знаем, что их на самом деле не существует в природе, но мы понимаем, что стоит подумать об этих математических идеалах, манипулировать ими и перенести результаты этих манипуляций обратно в реальный мир. Это действительно продуктивный способ думать о вещах. Эта концепция по существу является основой древней, современной, западной мысли о математике. Исторически эта концепция идеальных форм и идеальных кругов была своего рода основой платонической математики около 2500 лет назад. И в то время, когда они разрабатывали эту концепцию, то есть идею о том, что есть все идеальные формы, думать о них, манипулировать ими, это более эффективный способ рассуждать о реальном мире, наряду с этим было много скептицизма, мы можем представьте, что кто-то работал 2500 лет назад. Я верю в эти вещи, называемые идеальными кругами, идеальными квадратами и идеальными формами, но на самом деле их не существует в природе, это не было бы хорошо воспринято. Многие из этих философов были встречены негативно. Так что та борьба, которую мы пережили 2500 лет назад, которая существует сегодня, мы, как любопытные люди, попытаемся привнести математические понятия в окружающую среду, и люди говорят, что я не думаю, почему это актуально! и мы столкнемся с отрицательными входными данными, но мы должны быть уверены, что это хорошо плохо, это хорошо стоило в течение тысяч лет, здесь мы делаем ставку на математику, это был хороший инструмент, и поэтому мы начинаем думать таким образом, когда мы говорим о больших данных или машинном обучении. Какие идеалы нам нужны, чтобы эффективно рассуждать о проблемах, с которыми мы сталкиваемся сегодня в виртуальном мире. И тот факт, что эти математические концепции круга так хорошо описывают мир природы, а иногда и в виртуальном мире, иногда называют неразумной эффективностью математики.

Таким образом, круги не дают нам легкого пути, но в большинстве областей, с которыми мы работаем, будь то химия, физика и т. д., нам будут представлены основные фундаментальные теоретические идеи концепции линейной модели. Итак, почему нам нравятся линейные модели? В отличие от физики, у нас может быть f = ma, или в механике может быть базовое понятие трения, причина, по которой нам нравятся эти базовые линейные модели, заключается в том, что мы можем «предсказывать». Если я знаю, что сплошная линия представляет то, что я доказал в поддержку правильности, то я могу довольно хорошо проецировать, возможно, там, где у нас нет данных, или в новую область. Таким образом, линейная модель позволяет нам сделать это рассуждение и доказала свою эффективность.

Теперь существует много нелинейных явлений, которые чрезвычайно важны, и для человека, который имеет дело с крупномасштабными вычислениями, для выполнения нелинейных вычислений, рассуждая о вещах нелинейно, обычно требуется гораздо более сложный анализ, так что гораздо больше вычислений гораздо больше данных. Таким образом, наша способность экстраполировать очень ограничена. Итак, здесь я говорю об идеях математического мышления, говорю о линейности, так какое же это имеет отношение к большим данным и машинному обучению? Таким образом, мы сможем делать то же самое, что и в других областях, в этой новой развивающейся области больших данных. И это часто имеет дело с данными, которые не похожи на традиционные измерения, которые мы видим в науке, это могут быть данные, которые должны быть обработаны словами или изображениями, изображениями людей или другими типами вещей, которые не похожи на виды данных, с которыми мы традиционно имеем дело в науке и технике. Но мы знаем, что хотим использовать линейную модель, так как же мы собираемся это сделать? Как мы можем взять эту концепцию линейности, столь действенную во многих дисциплинах, и перенести ее в эту область, которая совершенно отличается с точки зрения имеющихся у нас данных!

Итак, начнем с того, что давайте вспомним, что значит быть линейным, линейность — это другой аспект, но математически линейность означает нечто гораздо более глубокое. Итак, вот уравнение, которое мы все наверняка видели в начальной школе: 2*(3+4) = (2*3) + (2*4). Это называется распределительным свойством, которое в основном означает, что умножение распределяется по сравнению с сложением, и это основная причина, по которой я бы сказал, что математика работает во всем мире. Если бы это не было правдой в первые дни изобретения математики, она не была бы очень полезной. С более глубокой точки зрения свойство распределения — это то, что делает математику линейной. Это свойство, если оно выполняется, то мы можем рассуждать о системе линейно.

Теперь мы знакомы с этим типом математики, но есть и другой тип математики, заменяющий символы сложения и умножения на 2 ⊗ (3 ⊕ 4) = (2 ⊗ 3) ⊕ (2 ⊗ 4), что оказывается, в то время как большинство из нас иметь дело с традиционной арифметикой — той, что мы делаем на наших калькуляторах и делаем в наших начальных школах, оказывается, что есть и другие пары операций, которые также подчиняются этому свойству распределения и, следовательно, потенциально позволяют нам строить линейные модели самых разных типов. данных с помощью этого свойства. Здесь + = ⊕, * = ⊗, которые являются своего рода стандартными, и на сегодняшний день эта пара является наиболее распространенной парой, которую мы используем сегодня во всем мире. Так, например, мы можем заменить операцию ⊕ на max, т. е. ⊕ = max, и ⊗ на плюс, т. е. ⊗ = +, и дистрибутивное уравнение по-прежнему будет выполняться, что немного сбивает с толку, но эту пару иногда называют алгеброй «max plus», которая на самом деле очень важно в машинном обучении и нейронных сетях. На самом деле это своего рода бэкэнд выпрямленной линейной единицы, которая по сути и является этой операцией. Это очень важно в финансовых операциях, которые основаны на этом типе математики. Есть и другие пары, такие как ⊕ = ∪ (объединение), ⊗ = ∩ (пересечение), теперь это также основа линейного свойства. По сути, это пара линейных операций, которые каждый раз, когда вы совершаете транзакцию и работаете с реляционной базой данных, внутри нее появляется математическая операция; вот почему эти базы данных работают. Это позволяет нам рассуждать о запросах, которые представляют собой просто серию пересечений и использовать объединения, и переупорядочивать их таким образом в базах данных, что они известны как «Планирование запросов», и если бы это свойство было неверным, вы бы не быть в состоянии сделать это. Таким образом, мы можем поместить сюда все различные типы пар и линейно обогатить их, и именно поэтому многие из систем, с которыми мы работаем сегодня, работают.

Таким образом, обычно A*(B+C)= (A*B)+(A*C), где в предыдущем уравнении A=2, B=3, C=4, но мы не ограничиваемся этими переменными или этими буквами для быть просто скалярными или действительными числами, они могут быть и другими вещами. Так, например, ABC может быть целыми электронными таблицами данных, таблицами базы данных (пары объединение/пересечение естественным образом выстраиваются в линию, и мы можем рассуждать о целых таблицах в базе данных, используя линейные свойства >), Матрицы,и через двойственность междуграфами/сетями (могут быть представлены через матрицы, в любое время работая с нейронной сетью и представляя эту сеть как матрицу, и все эти уравнения могут быть применены)и линейное уравнение останется в силе. И это, вероятно, ключевая концепция больших данных — необходимость рассуждать о данных при преобразовании целых коллекций. Идти и искать вещи по одному элементу за раз — это, по сути, вещь, которую чрезвычайно сложно сделать, когда у вас есть большой объем данных.

Теперь давайте поговорим о том, как это связано с одним из самых замечательных прорывов, которые мы видели, а именно с тем, что происходит в машинном обучении? Исторически так сложилось, что до 2010 года машинное обучение было очень простым, но после 2015 года оно исчезло, как гигантский слон, с развитием глубоких нейронных сетей и, по сути, позволило нам делать то, о чем мы говорили, почти невозможно. Дело в том, что мы можем разговаривать с компьютерами, и они могут нас понимать, у нас есть компьютеры, которые могут видеть так, как это делают люди, это почти технологические чудеса для всех, кто работал в этой области. на 50 лет и вдруг это стало возможным.

Таким образом, машинное обучение, как и любая другая область, определяется как набор основных используемых методов и проблем, над которыми они работают. Этими основными методами являются эти нейронные сети, они предназначены для грубой аппроксимации, может быть, того, как люди думают о проблемах, может быть, круги, которые представляют собой нейроны, у которых есть связь с другими нейронами, эти связи имеют различные веса, связанные с ними, и затем поступает информация. они умножаются/суммируются вместе, и если они проходят определенные пороговые критерии, то они посылают сигнал другому нейрону, и это в определенной степени соответствует тому, как мы полагаем, что человеческий мозг работает, и является естественной отправной точкой для того, как мы могли бы сделать компьютеры. делать подобные вещи? Итак, большие проблемы, над которыми работали люди, — это классические проблемы машинного обучения: Язык, как заставить компьютеры понимать человеческий язык, Видение, как сделать так, чтобы компьютеры видят изображения или объясняют их нам так, как нам хотелось бы, а также стратегии и игры и другие подобные вещи. Так как же заставить их решать проблемы? Эти основные концепции восходят к самым ранним дням в этой области. В середине 1950-х годов была конференция по машинному обучению, на которой были представлены первые четыре доклада, демонстрирующие идею языка, видения, стратегии и т. д. И потребовалось в основном пять десятилетий, чтобы решить эти проблемы, хотя изначально все ожидали, что они будут решены. решены к 1960-м годам, и теперь мы имеем то, что имеем. Теперь мы действительно, используя те методы, которые добились огромного прогресса в решении этих проблем.

Вот так выглядит нейронная сеть.

И это все, что нужно сделать. В этом нет ничего другого. И я бы сказал, что это один из самых действенных способов быть впереди в своей области — действительно понимать математические принципы. Потому что тогда программа и то, что она делает, становится намного понятнее. А другие люди, не знакомые с подобными математическими принципами, на самом деле только гадают. Они не знают, что это всего лишь корректировка этих различных уравнений. Теперь, почему это важно? Как мы сказали, у нас есть эта система, и она работает, но мы не знаем, почему. Ну, есть две причины; во-первых, если мы хотим иметь возможность применить это невероятное новшество к другим областям, вы можете применить пробы и ошибки к идее. Но если у вас есть математика, которая говорит, я думаю, что это, вероятно, сработает, это действительно отличный способ направить ваши рассуждения и направить ваши усилия. Другая причина заключается в том, что, предположим, у вас есть изображение очень милого пуделя, и система машинного обучения правильно идентифицирует его как пуделя. Мы должны понять одну вещь: то, как мы с вами видим эту картинку, на самом деле сильно отличается от того, как ее видит нейронная сеть. И на самом деле мы можем внести изменения в картинку, которые незаметны вам или мне, но полностью изменят то, как ее видит нейросеть. Например, они заставили систему думать, что этот пудель — страус. Так что то, что называется надежным ИИ или надежным машинным обучением, машинным обучением, которое нельзя обмануть, будет становиться все более и более важным, и опять же, более глубокое понимание теории очень важно для этого.

Здесь большая идея заключается в том, что называется декларативными математически строгими данными. Итак, у нас есть это математическое понятие, называемое ассоциативным массивом, и соответствующая ему алгебра, которая в основном охватывает данные, которые мы будем помещать в базы данных, графики, матрицы и это делает все это Линейной системой, включая сложение и умножение ключевых операций, или умножение массива/матрицы или умножение матрицы как комбинацию умножения и сложения, т. е. C = AB.

Дополнительные статьи см. на сайте www.ml-concepts.com.

Математика больших данных и машинное обучение