تبسيط البرمجة الديناميكية

كيفية بناء وترميز خوارزميات البرمجة الديناميكية

ربما سمعت عنها في التحضير لمقابلات الترميز. ربما واجهت صعوبة في التغلب عليها في دورة الخوارزميات. ربما تحاول تعلم كيفية البرمجة بنفسك ، وقيل لك في مكان ما على طول الطريق أنه من المهم فهم البرمجة الديناميكية. يعد استخدام البرمجة الديناميكية (DP) لكتابة الخوارزميات أمرًا ضروريًا بقدر ما يُخشى منه.

ومن يستطيع أن يلوم من يبتعد عنها؟ تبدو البرمجة الديناميكية مخيفة لأنها غير مدروسة. تركز العديد من البرامج التعليمية على النتيجة - شرح الخوارزمية ، بدلاً من العملية - إيجاد الخوارزمية. هذا يشجع على الحفظ وليس الفهم.

خلال فصل الخوارزميات هذا العام ، جمعت عمليتي الخاصة لحل المشكلات التي تتطلب البرمجة الديناميكية. تأتي أجزاء منه من أستاذ الخوارزميات (الذي يُنسب إليه الكثير من الفضل!) ، وأجزاء من تشريح خاص بي لخوارزميات البرمجة الديناميكية.

ولكن قبل أن أشارك عملي ، فلنبدأ بالأساسيات. ما هي البرمجة الديناميكية على أي حال؟

تعريف البرمجة الديناميكية

تصل البرمجة الديناميكية إلى تقسيم مشكلة التحسين إلى مشاكل فرعية أبسط ، وتخزين الحل لكل مشكلة فرعية بحيث يتم حل كل مشكلة فرعية مرة واحدة فقط.

لكي نكون صادقين ، قد لا يكون هذا التعريف منطقيًا تمامًا حتى ترى مثالًا لمشكلة فرعية. هذا جيد ، سيظهر في القسم التالي.

ما آمل أن أنقله هو أن DP هي تقنية مفيدة لمشاكل التحسين ، تلك المشكلات التي تبحث عن الحل الأقصى أو الأدنى نظرًا لقيود معينة ، لأنها تبحث في جميع المشكلات الفرعية المحتملة ولا تعيد حساب الحل لأي مشكلة فرعية أبدًا. هذا يضمن الدقة والكفاءة ، وهو ما لا يمكننا قوله عن معظم التقنيات المستخدمة لحل الخوارزميات أو تقريبها. هذا وحده يجعل DP خاصة.

في القسمين التاليين ، سأشرح ما هي المشكلة الفرعية ، ثم سأحفز سبب أهمية تخزين الحلول - وهي تقنية تُعرف باسم الذاكرة - في البرمجة الديناميكية.

المشاكل الفرعية على المشاكل الفرعية على المشاكل الفرعية

المشاكل الفرعية هي إصدارات أصغر من المشكلة الأصلية. في الواقع ، غالبًا ما تبدو المشكلات الفرعية كنسخة معاد صياغتها من المشكلة الأصلية. إذا تمت صياغة المشكلات الفرعية بشكل صحيح ، فإنها تعتمد على بعضها البعض من أجل الحصول على حل للمشكلة الأصلية.

لإعطائك فكرة أفضل عن كيفية عمل ذلك ، دعنا نجد المشكلة الفرعية في مثال مشكلة البرمجة الديناميكية.

افترض أنك في الخمسينيات من القرن الماضي تعمل على كمبيوتر IBM-650. أنت تعرف ماذا يعني هذا - punchcards! عملك هو أن يكون رجل ، أو امرأة ، IBM-650 ليوم واحد. كنت إعطاء عدد طبيعي ن punchcards لتشغيل. كل punchcard ط يجب تشغيل في بعض سلفا وقت البدء s_i ووقف على التوالي في بعض سلفا وقت الانتهاء f_i . يمكن تشغيل بطاقة ثقب واحدة فقط على IBM-650 مرة واحدة. تحتوي كل بطاقة مثقبة أيضًا على قيمة مرتبطة v_i بناءً على مدى أهميتها لشركتك.

المشكلة : بصفتك الشخص المسؤول عن IBM-650 ، يجب عليك تحديد الجدول الزمني الأمثل لبطاقات punchcards التي تزيد من القيمة الإجمالية لجميع عمليات تشغيل بطاقات punchcards.

نظرًا لأنني سأستعرض هذا المثال بتفصيل كبير في جميع أنحاء هذه المقالة ، فسوف أزعجك فقط بمشكلته الفرعية في الوقت الحالي:

المشكلة الفرعية : الحد الأقصى لجدول القيمة للبطاقات المثقوبة من i إلى n بحيث يتم فرز البطاقات المثقوبة حسب وقت البدء.

لاحظ كيف تقسم المشكلة الفرعية المشكلة الأصلية إلى مكونات تبني الحل. مع المشكلة الفرعية ، يمكنك العثور على الحد الأقصى لجدول القيمة لبطاقات punchcards من n-1 إلى n ، ثم للبطاقات المثقوبة من n-2 إلى n وهكذا. من خلال إيجاد الحلول لكل مشكلة فرعية ، يمكنك بعد ذلك معالجة المشكلة الأصلية نفسها: الحد الأقصى لجدول القيمة للبطاقات المثقوبة من 1 إلى n . نظرًا لأن المشكلة الفرعية تبدو مثل المشكلة الأصلية ، يمكن استخدام المشكلات الفرعية لحل المشكلة الأصلية.

في البرمجة الديناميكية ، بعد حل كل مشكلة فرعية ، يجب عليك حفظها أو تخزينها. دعنا نتعرف على السبب في القسم التالي.

تحفيز التجديد باستخدام أرقام فيبوناتشي

عندما يُطلب منك تنفيذ خوارزمية تحسب قيمة فيبوناتشي لأي رقم معين ، ماذا ستفعل؟ سيختار معظم الأشخاص الذين أعرفهم خوارزمية تكرارية تبدو شيئًا كهذا في بايثون:

def fibonacciVal(n): if n == 0: return 0 elif n == 1: return 1 else: return fibonacciVal(n-1) + fibonacciVal(n-2)

هذه الخوارزمية ينجز غرضه، ولكن على ضخمة من حيث التكلفة. على سبيل المثال ، لنلقِ نظرة على ما يجب أن تحسبه هذه الخوارزمية من أجل إيجاد n = 5 (والمختصرة كـ F (5)):

F(5) / \ / \ / \ F(4) F(3) / \ / \ F(3) F(2) F(2) F(1) / \ / \ / \ F(2) F(1) F(1) F(0) F(1) F(0) / \ F(1) F(0)

تمثل الشجرة أعلاه كل حساب يجب إجراؤه من أجل إيجاد قيمة فيبوناتشي لـ n = 5. لاحظ كيف تم حل المشكلة الفرعية لـ n = 2 ثلاث مرات. لمثال صغير نسبيًا (ن = 5) ، هذا كثير من الحسابات المتكررة والمهدرة!

ماذا لو ، بدلاً من حساب قيمة فيبوناتشي لـ n = 2 ثلاث مرات ، أنشأنا خوارزمية تحسبها مرة واحدة ، وتخزن قيمتها ، وتصل إلى قيمة فيبوناتشي المخزنة لكل تكرار لاحق لـ n = 2؟ هذا بالضبط ما يفعله الحفظ.

مع وضع هذا في الاعتبار ، قمت بكتابة حل برمجة ديناميكي لمشكلة قيمة فيبوناتشي:

def fibonacciVal(n): memo = [0] * (n+1) memo[0], memo[1] = 0, 1 for i in range(2, n+1): memo[i] = memo[i-1] + memo[i-2] return memo[n]

لاحظ كيف يأتي حل القيمة المعادة من مذكرة مصفوفة memoization [] ، والتي يتم تعبئتها بشكل متكرر بواسطة حلقة for. أعني بكلمة "تكراريًا" أن المذكرة [2] يتم حسابها وتخزينها قبل المذكرة [3] والمذكرة [4] و ... والمذكرة [ ن ]. نظرًا لملء المذكرة [] بهذا الترتيب ، يمكن حل كل مشكلة فرعية (n = 3) من خلال حلول المشكلات الفرعية السابقة (n = 2 و n = 1) لأن هذه القيم مخزنة بالفعل في مذكرة [] في وقت سابق.

يعني Memoization عدم إعادة الحساب ، مما يجعل خوارزمية أكثر كفاءة. وبالتالي ، يضمن الحفظ أن تكون البرمجة الديناميكية فعالة ، ولكنه اختيار المشكلة الفرعية الصحيحة التي تضمن أن يمر البرنامج الديناميكي بجميع الاحتمالات من أجل العثور على أفضلها.

الآن بعد أن عالجنا التذكر والمشكلات الفرعية ، حان الوقت لتعلم عملية البرمجة الديناميكية. مشبك في.

عملية البرمجة الديناميكية الخاصة بي

الخطوة 1: تحديد المشكلة الفرعية بالكلمات.

في كثير من الأحيان ، يلجأ المبرمجون إلى كتابة التعليمات البرمجية قبل التفكير بشكل نقدي في المشكلة المطروحة. غير جيد. تتمثل إحدى الاستراتيجيات لإثارة عقلك قبل لمس لوحة المفاتيح في استخدام كلمات ، باللغة الإنجليزية أو غير ذلك ، لوصف المشكلة الفرعية التي حددتها في المشكلة الأصلية.

إذا كنت تحل مشكلة تتطلب برمجة ديناميكية ، خذ قطعة من الورق وفكر في المعلومات التي تحتاجها لحل هذه المشكلة. اكتب المشكلة الفرعية مع وضع ذلك في الاعتبار.

على سبيل المثال ، في مشكلة punchcard ، ذكرت أنه يمكن كتابة المشكلة الفرعية على أنها "الحد الأقصى لقيمة الجدول الزمني للبطاقات المثقوبة من i إلى n بحيث يتم فرز البطاقات المثقبة حسب وقت البدء." لقد وجدت هذه المشكلة الفرعية من خلال إدراك أنه من أجل تحديد الحد الأقصى لجدول القيمة للبطاقات المثقوبة من 1 إلى n بحيث يتم فرز البطاقات المثقوبة حسب وقت البدء ، سأحتاج إلى العثور على إجابة للمشكلات الفرعية التالية:

  • الحد الأقصى لجدول القيمة للبطاقات المثقبة من n-1 إلى n بحيث يتم فرز البطاقات المثقوبة حسب وقت البدء
  • الحد الأقصى لجدول القيمة للبطاقات المثقبة من n-2 إلى n بحيث يتم فرز البطاقات المثقوبة حسب وقت البدء
  • الحد الأقصى لجدول القيمة للبطاقات المثقوبة من n-3 إلى n بحيث يتم فرز البطاقات المثقوبة حسب وقت البدء
  • (إلى آخره)
  • الحد الأقصى لجدول القيمة للبطاقات المثقوبة من 2 إلى n بحيث يتم فرز البطاقات المثقوبة حسب وقت البدء

إذا كان بإمكانك تحديد مشكلة فرعية تعتمد على المشكلات الفرعية السابقة لحل المشكلة المطروحة ، فأنت على الطريق الصحيح.

الخطوة 2: اكتب المسألة الفرعية كقرار رياضي متكرر.

Once you’ve identified a sub-problem in words, it’s time to write it out mathematically. Why? Well, the mathematical recurrence, or repeated decision, that you find will eventually be what you put into your code. Besides, writing out the sub-problem mathematically vets your sub-problem in words from Step 1. If it is difficult to encode your sub-problem from Step 1 in math, then it may be the wrong sub-problem!

There are two questions that I ask myself every time I try to find a recurrence:

  • What decision do I make at every step?
  • If my algorithm is at step i, what information would it need to decide what to do in step i+1? (And sometimes: If my algorithm is at step i, what information did it need to decide what to do in step i-1?)

Let’s return to the punchcard problem and ask these questions.

What decision do I make at every step? Assume that the punchcards are sorted by start time, as mentioned previously. For each punchcard that is compatible with the schedule so far (its start time is after the finish time of the punchcard that is currently running), the algorithm must choose between two options: to run, or not to run the punchcard.

If my algorithm is at stepi, what information would it need to decide what to do in stepi+1? To decide between the two options, the algorithm needs to know the next compatible punchcard in the order. The next compatible punchcard for a given punchcard p is the punchcard q such that s_q (the predetermined start time for punchcard q) happens after f_p (the predetermined finish time for punchcard p) and the difference between s_q and f_p is minimized. Abandoning mathematician-speak, the next compatible punchcard is the one with the earliest start time after the current punchcard finishes running.

If my algorithm is at stepi, what information did it need to decide what to do in stepi-1? The algorithm needs to know about future decisions: the ones made for punchcards i through n in order to decide to run or not to run punchcard i-1.

Now that we’ve answered these questions, perhaps you’ve started to form a recurring mathematical decision in your mind. If not, that’s also okay, it becomes easier to write recurrences as you get exposed to more dynamic programming problems.

Without further ado, here’s our recurrence:

OPT(i) = max(v_i + OPT(next[i]), OPT(i+1))

This mathematical recurrence requires some explaining, especially for those who haven’t written one before. I use OPT(i) to represent the maximum value schedule for punchcards i through n such that the punchcards are sorted by start time. Sounds familiar, right? OPT(•) is our sub-problem from Step 1.

In order to determine the value of OPT(i), we consider two options, and we want to take the maximum of these options in order to meet our goal: the maximum value schedule for all punchcards. Once we choose the option that gives the maximum result at step i, we memoize its value as OPT(i).

The two options — to run or not to run punchcard i — are represented mathematically as follows:

v_i + OPT(next[i])

This clause represents the decision to run punchcard i. It adds the value gained from running punchcard i to OPT(next[i]), where next[i] represents the next compatible punchcard following punchcard i. OPT(next[i]) gives the maximum value schedule for punchcards next[i] through n such that the punchcards are sorted by start time. Adding these two values together produces maximum value schedule for punchcards i through n such that the punchcards are sorted by start time if punchcard i is run.

OPT(i+1)

Conversely, this clause represents the decision to not run punchcard i. If punchcard i is not run, its value is not gained. OPT(i+1) gives the maximum value schedule for punchcards i+1 through n such that the punchcards are sorted by start time. So, OPT(i+1) gives the maximum value schedule for punchcards i through n such that the punchcards are sorted by start time if punchcard i is not run.

In this way, the decision made at each step of the punchcard problems is encoded mathematically to reflect the sub-problem in Step 1.

Step 3: Solve the original problem using Steps 1 and 2.

In Step 1, we wrote down the sub-problem for the punchcard problem in words. In Step 2, we wrote down a recurring mathematical decision that corresponds to these sub-problems. How can we solve the original problem with this information?

OPT(1)

It’s that simple. Since the sub-problem we found in Step 1 is the maximum value schedule for punchcards i through n such that the punchcards are sorted by start time, we can write out the solution to the original problem as the maximum value schedule for punchcards 1 through n such that the punchcards are sorted by start time. Since Steps 1 and 2 go hand in hand, the original problem can also be written as OPT(1).

Step 4: Determine the dimensions of the memoization array and the direction in which it should be filled.

Did you find Step 3 deceptively simple? It sure seems that way. You may be thinking, how can OPT(1) be the solution to our dynamic program if it relies on OPT(2), OPT(next[1]), and so on?

You’re correct to notice that OPT(1) relies on the solution to OPT(2). This follows directly from Step 2:

OPT(1) = max(v_1 + OPT(next[1]), OPT(2))

But this is not a crushing issue. Think back to Fibonacci memoization example. To find the Fibonacci value for n = 5, the algorithm relies on the fact that the Fibonacci values for n = 4, n = 3, n = 2, n = 1, and n = 0 were already memoized. If we fill in our memoization table in the correct order, the reliance of OPT(1) on other sub-problems is no big deal.

How can we identify the correct direction to fill the memoization table? In the punchcard problem, since we know OPT(1) relies on the solutions to OPT(2) and OPT(next[1]), and that punchcards 2 and next[1] have start times after punchcard 1 due to sorting, we can infer that we need to fill our memoization table from OPT(n) to OPT(1).

How do we determine the dimensions of this memoization array? Here’s a trick: the dimensions of the array are equal to the number and size of the variables on which OPT(•) relies. In the punchcard problem, we have OPT(i), which means that OPT(•) only relies on variable i, which represents the punchcard number. This suggest that our memoization array will be one-dimensional and that its size will be n since there are n total punchcards.

If we know that n = 5, then our memoization array might look like this:

memo = [OPT(1), OPT(2), OPT(3), OPT(4), OPT(5)]

However, because many programming languages start indexing arrays at 0, it may be more convenient to create this memoization array so that its indices align with punchcard numbers:

memo = [0, OPT(1), OPT(2), OPT(3), OPT(4), OPT(5)]

Step 5: Code it!

To code our dynamic program, we put together Steps 2–4. The only new piece of information that you’ll need to write a dynamic program is a base case, which you can find as you tinker with your algorithm.

A dynamic program for the punchcard problem will look something like this:

def punchcardSchedule(n, values, next): # Initialize memoization array - Step 4 memo = [0] * (n+1) # Set base case memo[n] = values[n] # Build memoization table from n to 1 - Step 2 for i in range(n-1, 0, -1): memo[i] = max(v_i + memo[next[i]], memo[i+1]) # Return solution to original problem OPT(1) - Step 3 return memo[1]

Congrats on writing your first dynamic program! Now that you’ve wet your feet, I’ll walk you through a different type of dynamic program.

Paradox of Choice: Multiple Options DP Example

Although the previous dynamic programming example had a two-option decision — to run or not to run a punchcard — some problems require that multiple options be considered before a decision can be made at each step.

Time for a new example.

Pretend you’re selling the friendship bracelets to n customers, and the value of that product increases monotonically. This means that the product has prices {p_1, …, p_n} such that p_i ≤ p_j if customer j comes after customer i. These n customers have values {v_1, …, v_n}. A given customer i will buy a friendship bracelet at price p_i if and only if p_iv_i; otherwise the revenue obtained from that customer is 0. Assume prices are natural numbers.

Problem: You must find the set of prices that ensure you the maximum possible revenue from selling your friendship bracelets.

Take a second to think about how you might address this problem before looking at my solutions to Steps 1 and 2.

Step 1: Identify the sub-problem in words.

Sub-problem: The maximum revenue obtained from customers i through n such that the price for customer i-1 was set at q.

I found this sub-problem by realizing that to determine the maximum revenue for customers 1 through n, I would need to find the answer to the following sub-problems:

  • The maximum revenue obtained from customers n-1 through n such that the price for customer n-2 was set at q.
  • The maximum revenue obtained from customers n-2 through n such that the price for customer n-3 was set at q.
  • (Et cetera)

Notice that I introduced a second variable q into the sub-problem. I did this because, in order to solve each sub-problem, I need to know the price I set for the customer before that sub-problem. Variable q ensures the monotonic nature of the set of prices, and variable i keeps track of the current customer.

Step 2: Write out the sub-problem as a recurring mathematical decision.

There are two questions that I ask myself every time I try to find a recurrence:

  • What decision do I make at every step?
  • If my algorithm is at step i, what information would it need to decide what to do in step i+1? (And sometimes: If my algorithm is at step i, what information would it need to decide what to do in step i-1?)

Let’s return to the friendship bracelet problem and ask these questions.

What decision do I make at every step? I decide at which price to sell my friendship bracelet to the current customer. Since prices must be natural numbers, I know that I should set my price for customer i in the range from q — the price set for customer i-1 — to v_i — the maximum price at which customer i will buy a friendship bracelet.

If my algorithm is at stepi, what information would it need to decide what to do in stepi+1? My algorithm needs to know the price set for customer i and the value of customer i+1 in order to decide at what natural number to set the price for customer i+1.

With this knowledge, I can mathematically write out the recurrence:

OPT(i,q) = max~([Revenue(v_i, a) + OPT(i+1, a)])
such that max~ finds the maximum over all a in the range q ≤ a ≤ v_i

Once again, this mathematical recurrence requires some explaining. Since the price for customer i-1 is q, for customer i, the price a either stays at integer q or it changes to be some integer between q+1 and v_i. To find the total revenue, we add the revenue from customer i to the maximum revenue obtained from customers i+1 through n such that the price for customer i was set at a.

In other words, to maximize the total revenue, the algorithm must find the optimal price for customer i by checking all possible prices between q and v_i. If v_iq, then the price a must remain at q.

What about the other steps?

Working through Steps 1 and 2 is the most difficult part of dynamic programming. As an exercise, I suggest you work through Steps 3, 4, and 5 on your own to check your understanding.

Runtime Analysis of Dynamic Programs

Now for the fun part of writing algorithms: runtime analysis. I’ll be using big-O notation throughout this discussion . If you’re not yet familiar with big-O, I suggest you read up on it here.

Generally, a dynamic program’s runtime is composed of the following features:

  • Pre-processing
  • How many times the for loop runs
  • How much time it takes the recurrence to run in one for loop iteration
  • Post-processing

Overall, runtime takes the following form:

Pre-processing + Loop * Recurrence + Post-processing

Let’s perform a runtime analysis of the punchcard problem to get familiar with big-O for dynamic programs. Here is the punchcard problem dynamic program:

def punchcardSchedule(n, values, next): # Initialize memoization array - Step 4 memo = [0] * (n+1) # Set base case memo[n] = values[n] # Build memoization table from n to 1 - Step 2 for i in range(n-1, 0, -1): memo[i] = max(v_i + memo[next[i]], memo[i+1]) # Return solution to original problem OPT(1) - Step 3 return memo[1]

Let’s break down its runtime:

  • Pre-processing: Here, this means building the the memoization array. O(n).
  • How many times the for loop runs: O(n).
  • How much time it takes the recurrence to run in one for loop iteration: The recurrence takes constant time to run because it makes a decision between two options in each iteration. O(1).
  • Post-processing: None here! O(1).

The overall runtime of the punchcard problem dynamic program is O(n) O(n) * O(1) + O(1), or, in simplified form, O(n).

You Did It!

Well, that’s it — you’re one step closer to becoming a dynamic programming wizard!

One final piece of wisdom: keep practicing dynamic programming. No matter how frustrating these algorithms may seem, repeatedly writing dynamic programs will make the sub-problems and recurrences come to you more naturally. Here’s a crowdsourced list of classic dynamic programming problems for you to try.

So get out there and take your interviews, classes, and life (of course) with your newfound dynamic programming knowledge!

شكراً جزيلاً لستيفن بينيت ، وكلير دوراند ، وبريتاج ناث على تصحيح هذا المنشور. شكراً للبروفيسور هارتلاين لأنه جعلني متحمسًا جدًا بشأن البرمجة الديناميكية التي كتبت عنها بالتفصيل.

استمتع بما تقرأ؟ انشر الحب من خلال الإعجاب بهذه القطعة ومشاركتها. هل لديك أفكار أو أسئلة؟ تواصل معي على Twitter أو في التعليقات أدناه.